In [29]:
import numpy as np
import pandas as pd
from scipy import stats

## Взаимосвязь величин. Параметрические и непараметрические показатели корреляции. Корреляционный анализ

### Задача 1

Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):

In [2]:
salary = np.array([35, 45, 190, 200, 40, 70, 54, 150, 120, 110])
scoring = np.array([401, 574, 874, 919, 459, 739, 653, 902, 746, 832])

1. Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
2. Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.

Несмещенную ковариацию найдем по формуле: 
$$
\operatorname{cov}(X, Y)=\frac{(X-M(X))(Y-M(Y))}{n-1}
$$

In [8]:
salary_mean = salary.mean()
scoring_mean = scoring.mean()
cov_sal_scor = ((salary - salary_mean)*(scoring - scoring_mean)).sum() / (salary.shape[0] - 1)
cov_sal_scor

10175.37777777778

In [7]:
np.cov(salary, scoring, ddof=1)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

In [12]:
salary.std(ddof=1)

62.31318747531162

In [13]:
scoring.std(ddof=1)

183.99544076477068

In [20]:
corr_sal_scor = cov_sal_scor / (salary.std(ddof=1) * scoring.std(ddof=1))
corr_sal_scor

0.8874900920739164

In [17]:
np.corrcoef(salary, scoring)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

### Задача 2

Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:

In [21]:
IQ = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

Дисперсия генеральной совокупности неизвестна, поэтому воспользуемся распределением Стьюдента. Выборочное среднее:

In [23]:
MIQ = IQ.mean()
MIQ

118.1

Несмещенная оценка средне квадратичного отклонения:

In [28]:
IQ_std = IQ.std(ddof=1)
IQ_std

10.54566788359614

1 - 0.05/2 квантиль распредения Стьюдента:

In [32]:
t_a = stats.t.ppf(1 - 0.05/2, IQ.shape[0] - 1)
t_a

2.2621571627409915

Границы доверительного интервала:

In [35]:
left = MIQ - t_a * IQ_std / np.sqrt(IQ.shape[0])
right = MIQ + t_a * IQ_std / np.sqrt(IQ.shape[0])

print((left, right))

(110.55608365158724, 125.64391634841274)


### Задача 3

Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.

In [37]:
DX = 25
n = 27
mX = 174.2
alpha = 0.05

Воспользуемся центральной предельной теоремой и правилом двух сигм для оценки математического ожидания по выборочному среднему

In [39]:
std_X = np.sqrt(DX / n)
std_X

0.9622504486493763

доверительный интервал:

In [40]:
(mX - 2 * std_X, mX + 2 * std_X)

(172.27549910270125, 176.12450089729873)

### Задача 4

Хочу использовать этот датасет (статистика по аппстору)
https://www.kaggle.com/ramamet4/app-store-apple-data-set-10k-apps

Определить какие программы больше скачиваются, выявить закономерности между данными. Например, между лояльностью пользователей и другими параметрами (цена, количество скриншотов в описании, возрастной рэйтинг). Сравнить статистику для разных групп приложений.

К сожалению в датасете не представлено количество скачиваний, вместо этого параметра можно использовать количество пользователей, поставивших оценку. 
Если получится, разделить датасет на несколько частей и построить предиктивную модель для предсказывания популярности приложения по его данным.