## Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ

### Даны значения величины заработной платы заемщиков банка (zp) и значения их поведенческого кредитного скоринга (ks): zp = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], ks = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]. Найдите ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy Полученные значения должны быть равны. Найдите коэффициент корреляции Пирсона с помощью ковариации и среднеквадратичных отклонений двух признаков, а затем с использованием функций из библиотек numpy и pandas.

Найдем ковариацию этих двух величин с помощью элементарных действий, а затем с помощью функции cov из numpy

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

Заявим выборки

In [5]:
zp = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
ks = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

$$ Найдем~ ковариацию~ этих~ двух~ величин~ с~ помощью~ элементарных~ действий~ по~ формуле~ \bar{XY} - \bar{X} * \bar{Y}$$

In [6]:
c = (zp*ks).mean()-zp.mean()*ks.mean()
c

9157.839999999997

Найдем ковариацию (смещенную) этих двух величин с помощью функции cov из numpy

In [7]:
np.cov(zp, ks, ddof=0)

array([[ 3494.64,  9157.84],
       [ 9157.84, 30468.89]])

$$ Найдем~ коэффициент~ корреляции~ Пирсона~ с~ помощью~ ковариации~ и~ среднеквадратичных~ отклонений~ двух~ признаков~ по~ формуле~ \gamma XY = \frac{cov XY}{\sigma X * \sigma Y} $$

In [13]:
c = np.cov(zp, ks, ddof=1) # несмещенная
c

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

In [14]:
covXY = 10175.37

Далее найдем сигмы для выборок X(zp) и Y(ks)

In [15]:
azp = zp.std(ddof=1)
azp

62.31318747531162

In [16]:
aks = ks.std(ddof=1)
aks

183.99544076477068

Подставим полученные данные в формулу Пирсона

In [18]:
rXY = covXY/(azp*aks)
rXY

0.8874894137009981

Найдем коэффициент корреляции Пирсона с использованием функций из библиотек numpy и pandas

Создадим дата-фрейм

In [20]:
d = {'zp': zp, 'ks': ks}
df = pd.DataFrame(data = d)
df

Unnamed: 0,zp,ks
0,35,401
1,45,574
2,190,874
3,200,919
4,40,459
5,70,739
6,54,653
7,150,902
8,120,746
9,110,832


Используем функцию corr для нахождения коэффициента корреляции Пирсона

In [21]:
df.corr()

Unnamed: 0,zp,ks
zp,1.0,0.88749
ks,0.88749,1.0


 Коэффициент корреляции Пирсона равен 0.8874

## Измерены значения IQ выборки студентов, обучающихся в местных технических вузах: 131, 125, 115, 122, 131, 115, 107, 99, 125, 111. Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

$$ Так~ как~ сигма~ генеральной~ совокупности~ нам~ не~ известна~ то~ будем~ использовать~ формулу~ Стьюдента~ для~ нахождения~ доверительного~ интервала~ \bar{X} \pm t_{a/2} * std/(n)^{0.5} $$

In [23]:
sample = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

In [30]:
n=10 # колл-во значений в выборке

Находим среднее арифмитическое

In [24]:
x = sample.mean()
x

118.1

In [27]:
alpha = 0.025

Найдем значение Стьюдента для альфы

In [31]:
t = stats.t.ppf(1.0 - alpha, n-1)
t

2.2621571627409915

Найдем стандартное отклонение 

In [32]:
man = np.std(sample, ddof=1)
man

10.54566788359614

Далее найдем доверительный интервал подставив полдученные значения в формулу со знаком + и -

In [38]:
p2 = x+((t*man)/(n**0.5)) # верхняя граница

In [39]:
p1 = x-((t*man)/(n**0.5)) # нижняя граница

In [40]:
print(f'Доверительный интервал для математического ожидания с надежностью 0.95: {p1},{p2} ')

Доверительный интервал для математического ожидания с надежностью 0.95: 110.55608365158724,125.64391634841274 


## Известно, что рост футболистов в сборной распределен нормально с дисперсией генеральной совокупности, равной 25 кв.см. Объем выборки равен 27, среднее выборочное составляет 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

$$ В~ нашей~ задаче~ нам~ извествно~ среднее~ стандартное~ отклонение,~ поэтому~ будем~ использовать~ для~ нахождения~ доверительного~ интервала~ формулу~ \bar{x} \pm Z_{a/2} * \frac{\sigma}{\sqrt{n}} $$

In [2]:
std=5 # стандартное отклонение найденное как корень квадратный из дисперсии

In [3]:
n=27

In [4]:
x=174.2 # среднее выборочное

In [5]:
alpha = 0.025 # 1/2 альфы

In [6]:
Zтаб=1.96 # по таблице Z

Подставим полученные данные в формулу, решая с - и +

In [9]:
x-(Zтаб*std/(27)**0.5) # левая граница доверительного интервала

172.31398912064722

In [10]:
x+(Zтаб*std/(27)**0.5) # правая граница доверительного интервала

176.08601087935276

Границы доверительного интервала равны от 172.3139 до 176.08601087935276