In [3]:
import numpy as np
import pandas as pd
from scipy import stats

### Задача 1
 
Даны значения величины заработной платы заемщиков банка (salary) и значения их поведенческого кредитного скоринга (scoring):
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]
Найдите ковариацию этих двух величин: сначала без использования специальных функций, а затем с помощью функции numpy.cov. Полученные значения должны быть равны.
Найдите коэффициент корреляции Пирсона: с помощью ковариации и средних квадратических отклонений двух признаков, а затем с помощью специальных функций из библиотек numpy и pandas.


__Ковариация__ — мера линейной зависимости случайных величин. Её формула похожа на формулу дисперсии (_variance_). 

Формула ковариации случайных величин $X$ и $Y$:
$$\operatorname{cov}(X, Y) = M\left( (X - M(X)) (Y - M(Y)) \right).$$

In [74]:
salary = [35, 45, 190, 200, 40, 70, 54, 150, 120, 110]

In [82]:
scoring = [401, 574, 874, 919, 459, 739, 653, 902, 746, 832]

In [83]:
X = df['salary']
Y = df['scoring']

MX = X.mean()
MY = Y.mean()

cov = ((X - MX) * (Y - MY)).sum() / (X.shape[0] - 1)
cov

10175.37777777778

In [84]:
np.cov(X, Y, ddof=1)

array([[ 3882.93333333, 10175.37777778],
       [10175.37777778, 33854.32222222]])

Эта функция возвращает не значение ковариации, а т.н. __матрицу ковариаций__. В ней по диагонали стоят вариации (т.е. дисперсии) каждой из выборок, а вне диагонали — попарные ковариации.

In [85]:
X.var(), Y.var()

(3882.9333333333334, 33854.32222222223)

In [86]:
df = pd.DataFrame({'salary': [35, 45, 190, 200, 40, 70, 54, 150, 120, 110], 'scoring':[401, 574, 874, 919, 459, 739, 653, 902, 746, 832]})
df

Unnamed: 0,salary,scoring
0,35,401
1,45,574
2,190,874
3,200,919
4,40,459
5,70,739
6,54,653
7,150,902
8,120,746
9,110,832


In [87]:
corr = cov / (X.std() * Y.std())
corr

0.8874900920739164

Коэффициент корреляции Пирсона считается по умолчанию с помощью метода `.corr` объектов `pandas.DataFrame`:

In [88]:
df[['salary', 'scoring']].corr()

Unnamed: 0,salary,scoring
salary,1.0,0.88749
scoring,0.88749,1.0


Ту же самую матрицу корреляций можно получить с помощью функции `numpy.corrcoef`.

In [89]:
np.corrcoef(X, Y)

array([[1.        , 0.88749009],
       [0.88749009, 1.        ]])

### Задача 2
 
Измерены значения IQ выборки студентов, обучающихся в местных технических вузах:
131, 125, 115, 122, 131, 115, 107, 99, 125, 111
Известно, что в генеральной совокупности IQ распределен нормально. Найдите доверительный интервал для математического ожидания с надежностью 0.95.


Т.к. дисперсия незивестна, будем использовать t-статистику:

In [8]:
students = np.array([131, 125, 115, 122, 131, 115, 107, 99, 125, 111])

In [9]:
n = students.shape[0]
n

10

In [10]:
s = students.mean()
s

118.1

In [14]:
p = 0.95
mean = s
std = students.std(ddof=1)
std

10.54566788359614

In [15]:

alpha = 1 - p

t1 = stats.t.ppf(alpha / 2, df=n - 1)
t2 = stats.t.ppf(1 - alpha / 2, df=n - 1)

t1, t2

(-2.2621571627409915, 2.2621571627409915)

Доверительный интервал:

In [16]:
(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))

(110.55608365158724, 125.64391634841274)

### Задача 3


Известно, что рост футболистов в сборной распределен нормально с известной дисперсией 25. На выборке объёма 27 выборочное среднее составило 174.2. Найдите доверительный интервал для математического ожидания с надежностью 0.95.



__Доверительный интервал__ — это интервал, который с некоторой уверенностью (заданной заранее) содержит значение оцениваемого параметра.



In [5]:
n = 27
p = 0.95
mean = 174.2
d = 25
std = np.sqrt(d)
n, mean, d, p, std

(27, 174.2, 25, 0.95, 5.0)

<center>
    <div style="width: 350px;border:1px solid black;">
        $P \left( \overline{X} + t_{\alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X} + t_{1 - \alpha / 2} \cdot \dfrac{\sigma}{\sqrt{n}} \right) = p$
    </div>
</center>

Нужные нам квантили найдём с помощью `scipy`:

In [6]:

alpha = 1 - p

t1 = stats.norm.ppf(alpha / 2)
t2 = stats.norm.ppf(1 - alpha / 2)

t1, t2

(-1.959963984540054, 1.959963984540054)

Итак, доверительный интервал:

In [7]:
(mean + t1 * std / np.sqrt(n), mean + t2 * std / np.sqrt(n))

(172.3140237765397, 176.08597622346028)

### Задача 4

Выбрать тему для курсового проекта. Курсовой по желанию. Данные с kaggle.com
Варианты тем:
1.EDA (рассчитать описательные статистики+ графический анализ с выводами)
2.Тестирование гипотезы (условия применимости того или иного критерия проверить , можно с графиками+ провести тестирование, оформить вывод)
3.Линейная регрессия (условия применимости метода проверить ,можно с графиками, построить модель, исследовать на статистическую значимость модель ,можно и коэффициенты (самостоятельное изучение), коэффициент детерминации)
4.Однофакторный или двухфакторный дисперсионный анализ (обязательно условия применимости исследовать, провести анализ, оформить вывод)
Требования к оформлению : название темы, сопроводительный текст к действиям, что и почему делаете, какой вывод.
Срок сдачи -до 07.09.21


Я выбрала данный датасет на https://www.kaggle.com/unsdsn/world-happiness?select=2018.csv

Вот такие есть варианты теорий на проверку:
1. чем выше уровень свободы и доверия правительству, тем выше уровень счастья
2. уровень счатья в 2019 году увеличился на ... по сравнению с 2018 годом, оказали влияние следующи у факторы...
3. какаие признаки наиболее оказывают влияние на уровень счастья