## Здравствуйте, меня зовут *Имя Фамилия*, вот моё Задание №2 по курсу ПСАД-2022!

При выполнении задания Вам могут понадобиться три функции: 


*   draw_linear для того, чтобы отобразить на плоскости зависимость двух величин
*   draw_cm для построения матрицы ошибок (confusion matrix)
*   apply_pair_statistics для того, чтобы вычислить требуемую статистику для всех пар в указанном датасете



In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

import seaborn as sns
sns.set()

%matplotlib inline
%config InlineBackend.figure_format = 'svg' 

In [2]:
from scipy.stats import linregress

def draw_linear(x, y, x_name='', y_name=''):
    "Scatter x-y points and draw a LR line."
    slope, intercept, r, _, _ = linregress(x, y)
    x_lims = np.array([x.min() - 1, x.max() + 1])
    plt.xlabel(x_name)
    plt.ylabel(y_name)
    plt.plot(x, y, 'g+', label='Objects')
    plt.plot(x_lims, intercept + slope * x_lims, 'r--', label=r"LR line with $\rho \approx {:.3f}$".format(r))
    plt.legend()
    plt.show()

In [3]:
from sklearn.metrics import confusion_matrix

def draw_cm(x_bin, y_bin, x_name='', y_name=''):
    "Draw a confusion matrix for binary 1-D arrays x_bin and y_bin."
    cm = confusion_matrix(x_bin, y_bin)
    plt.matshow(cm)
    plt.xlabel(x_name)
    plt.ylabel(y_name)
    plt.colorbar()
    plt.grid(False)
    plt.show()

In [4]:
from itertools import combinations
from collections import defaultdict

def apply_pair_statistics(S, pair_statistics, statistics_names):
    """Apply pair statistics to each pair in a dataset S 
    and return a DataFrame containing the results.
    
    Parameters
    ----------
    S: array of shape (N, D)
        A dataset numpy array.
    pair_statistics: list of callables
        A list of statistics -- functions requiring two array arguments (x and y) 
        and returning a number (statistic's value)
    statistics_names: list of strings
        A list of statistics names.
    """
    res = defaultdict(list)

    for i, j in combinations(range(S.shape[1]), 2):
        x_name, y_name = f'X{i+1}', f'X{j+1}'
        x, y = S.T[i], S.T[j]
        res["Pair"].append(x_name + ' - ' + y_name)
        for statistic, name in zip(pair_statistics, statistics_names):
            res[name].append(statistic(x, y))

    res = pd.DataFrame(res)
    return res

## Часть 1

В этой части мы воспользуемся набором данных $\widetilde{S}$, хранящемся в файле data. Данный набор содержит 4 связанных выборки случайных переменных: $X_1, X_2, X_3$ и $X_4$.

In [6]:
S = np.load('data', allow_pickle=True)

### Задача 1  

Реализуйте функцию pearson, которая возвращает значение корреляции Пирсона для двух выборок. Воспользуйтесь функцией apply_pair_statistics для применения данной функции к набору данных $\widetilde{S}$.

In [None]:
def pearson(x, y):
    "Calculate a Pearson correlation coefficient given 1-D data arrays x and y."
    # TODO: implement me!!!
    pass

res_pearson = apply_pair_statistics(S, [pearson], ['Pearson'])
res_pearson

Unnamed: 0,Pair,Pearson
0,X1 - X2,
1,X1 - X3,
2,X1 - X4,
3,X2 - X3,
4,X2 - X4,
5,X3 - X4,


Какие выводы Вы можете сделать по этим результатам?

Выводы: ***Ваши мысли тут*** \\(^_^)/

Реализуйте функцию rank, которая принимает на вход список чисел, а возвращает список, содержащий ранги соответствующих чисел в исходном ряду (порядковый номер в вариационном ряду).
Не забудьте, что если входной массив чисел содержит повторяющиеся значения, то им присваивается усреднённый ранк.

Пример: \\
вход:  [5, 4, 4, 2, 7] \\
выход: [4, 2.5, 2.5, 1, 5]

Примените данную функцию ко всем выборкам из $\widetilde{S}$. Полученный набор данных назовём $\widetilde{S_r}$.

In [None]:
def rank(x):
    "Assign ranks to data and return the resulting ranking array."
    # TODO: implement me!!!
    pass

S_r = np.array([rank(x) for x in S.T]).T

Для всех возможных пар выборок из $\widetilde{S_r}$, вычислите коэффициенты корреляции Спирмена и Кендалла ($\tau$-коэффициент).

In [None]:
def spearman(x_r, y_r):
    "Calculate a Spearman correlation coefficient given 1-D ranking arrays x_r and y_r."
    # TODO: implement me!!!
    pass

def kendall(x_r, y_r):
    "Calculate a Kendall tau correlation coefficient given 1-D ranking arrays x_r and y_r."
    # TODO: implement me!!!
    pass

res_ranked = apply_pair_statistics(S_r, [spearman, kendall], ['Spearman', 'Kendall'])
res_ranked

Проанализируйте полученные результаты. Сравните их с выводами, сделанными выше. Отобразите зависимость переменных на плоскости. Какие выводы Вы можете сделать по этим двум таблицам?

При желании можно построить свои графики, вывести дополнительные результаты и провести дополнительный анализ.

In [None]:
res_final = pd.merge(res_pearson, res_ranked)
res_final

In [None]:
draw_linear(S.T[0], S.T[1], 'X1', 'X2')
draw_linear(S.T[0], S.T[1], 'X1', 'X3')
draw_linear(S.T[0], S.T[1], 'X1', 'X4')
draw_linear(S.T[1], S.T[2], 'X2', 'X3')
draw_linear(S.T[1], S.T[2], 'X2', 'X4')
draw_linear(S.T[2], S.T[3], 'X3', 'X4')

draw_linear(S_r.T[0], S_r.T[1], 'X1', 'X2')
draw_linear(S_r.T[0], S_r.T[1], 'X1', 'X3')
draw_linear(S_r.T[0], S_r.T[1], 'X1', 'X4')
draw_linear(S_r.T[1], S_r.T[2], 'X2', 'X3')
draw_linear(S_r.T[1], S_r.T[2], 'X2', 'X4')
draw_linear(S_r.T[2], S_r.T[3], 'X3', 'X4')


**Выводы:**


```
                   ,%%%,
                 ,%%%` %==--
                ,%%`( '|
               ,%%@ /\_/
     ,%.-"""--%%% "@@__
    %%/             |__`\
   .%'\     |   \   /  //
   ,%' >   .'----\ |  [/
      < <<`       ||
       `\\\       ||
         )\\      )\
 ^^^^^^^^"""^^^^^^""^^^^^^^^^
```


### Задача 2

Реализуйте функцию binarize, которая бинаризует выборку по указанному значению (заменяет значения, меньшие заданного, на 0; меняет на 1 числа, большие и равные заданному значению). Примените их к исходному набору данных, воспользовавшись в качестве значения для бинаризации медиану, и получите набор $\widetilde{S_{bin}}$

In [None]:
def binarize(x, value):
    "Binarize the array by the given value."
    # TODO: implement me!!!
    pass

S_bin = np.array([binarize(x, np.median(x)) for x in S.T]).T

Вычислите для каждой пары бинаризованных переменных коэффициенты близости Жаккарда и $\phi$.

In [None]:
def jaccard(x_bin, y_bin):
    "Compute the Jaccard coefficient given 1-D boolean arrays x_bin and y_bin."
    # TODO: implement me!!!
    pass

def phi(x_bin, y_bin):
    "Compute the phi coefficient given 1-D boolean arrays x_bin and y_bin."
    # TODO: implement me!!!
    pass

res_bin = apply_pair_statistics(S_bin, [jaccard, phi], ['Jaccard', 'Phi'])
res_bin

Сделайте выводы по полученным результатам и приведённым ниже матрицам ошибок.

При желании можно построить свои графики / вывести дополнительные результаты.

In [None]:
draw_cm(S_bin.T[0], S_bin.T[1], 'X1', 'X2')
draw_cm(S_bin.T[1], S_bin.T[2], 'X2', 'X3')
draw_cm(S_bin.T[2], S_bin.T[3], 'X3', 'X4')

**Выводы:**


(̿▀̿ ̿Ĺ̯̿̿▀̿ ̿)̄




## Часть 2

### Задача 3

Сравните две модели регрессий.

In [8]:
rmodels = pd.read_table("rmodels.txt")
rmodels.sample(5)

Unnamed: 0,err1,err2
431,-0.667068,-0.684137
425,0.10909,0.127142
528,0.967207,0.962853
880,0.161962,0.180294
434,-0.266546,-0.285919


1. Сравните распределения двух выборок. Можно ли сказать что одна из моделей регрессий работает лучше?

***Выводы о работе регрессий:***
  ᕕ༼ ⌐■-■༽ᕗ


2. Реализуйте процедуру перестановочного критерия для НЕзависимых выборок для точности порядка $10^{-4}$. Cравните получившееся p-value с таковым для $t$-критерия и для критерия Манна-Уитни `mannwhitneyu`.

Выводы после сравнения: 

3. Реализуйте процедуру перестановочного критерия для зависимых выборок для точности порядка $10^{-4}$. Cравните получившееся p-value с таковым для $t$-критерия и для критерия Уилкоксона `wilcoxon`. Не забудьте, что вам в данном случае каждый из критериев нужно вызвать с параметрами, соответствующими связанным выборкам.

**Выводы:**


```
               .=.,
              ;c =\
            __|  _/
          .'-'-._/-'-._
         /..   ____    \
        /' _  [<_->] )  \
       (  / \--\_>/-/'._ )
        \-;_/\__;__/ _/ _/
         '._}|==o==\{_\/
          /  /-._.--\  \_
         // /   /|   \ \ \
        / | |   | \;  |  \ \
       / /  | :/   \: \   \_\
      /  |  /.'|   /: |    \ \
      |  |  |--| . |--|     \_\
      / _/   \ | : | /___--._) \
     |_(---'-| >-'-| |       '-'
            /_/     \_\
```



### Задача 4

Имеются данные о продажной стоимости недвижимости в Сиэтле для 50 сделок в 2001 году и 50 в 2002.
Нужно проанализировать данные и ответить на вопрос, изменились ли цены на недвижимость.

In [9]:
data = pd.read_table("seattle.txt")
x1 = data[data["Year"] == 2001]["Price"].values
x2 = data[data["Year"] == 2002]["Price"].values

1. Выведите основную информацию о распределении данных о продаже недвижимости за 2001 и 2002 год. Для этого проиллюстрируйте функцию плотности вероятности для каждого года, а также воспользуйтесь boxplot. Попробуйте сравнить две выборки при помощи теста Колмогорова-Смирнова для двух выборок (`ks_2samp` из библиотеки `scipy`). Какие выводы можно сделать на основе сравнения информации о двух распределениях?

***Выводы по графикам:*** ಠ_ರೃ

2. Проверьте на нормальность данные за каждый год по отдельности и в целом за два года. Для этого воспользуйтесь тестами Колмогорова-Смирнова `kstest(x, 'norm')` и Шапиро-Уилка `shapiro(x)` из библиотеки `scipy`, а также постройте qqplot. Какие выводы о нормальности данных можно сделать?

***Выводы о нормальности:*** ┏(‘▀_▀’)ノ♬♪

3. Постройте точечную оценку и доверительный интервал для средних значений в обеих выборках, а также оценки для разницы средних по обеим выборкам. Для этого вам понадобится `bootstrap` из `bootstrapped.bootstrap`.

**Выводы о результатах в целом:** :)

4. Творческое задание. Представьте, что Вы занимаетесь анализом недвижимости и Вам нужно проанализировать рынок на основе расширенного датасета с недвижимостью из Сиэтла:
https://www.kaggle.com/harlfoxem/housesalesprediction
Попробуйте проанализировать эти данные, воспользовавшись известными Вами статистическими методами (исключая методы машинного обучения!). Какие статистики Вы бы посчитали в первую очередь? Какая информация, по Вашему мнению, наиболее полезна? Попробуйте построить 2-3 графика, которые помогли бы, по-Вашему мнению, получить полезную информацию о рынке недвижимости.

In [None]:
# your great code here

Выводы по анализу датасета:



```
⠀⠀⠀⠀⠀⠀⠀⠀⠀⣀⣤⣤⣄⣀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⣠⣾⣿⣿⣿⣿⣿⣿⣿⣿⣿⣦⣀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⣰⣿⣿⣿⣿⠿⠿⣿⣿⣿⣿⣿⣿⣿⣧⢀⠀⠀⠀⠀
⠀⠀⠀⣿⣿⣿⠋⠀⠀⠀⠀⠀⠙⠀⠙⣿⣿⣿⣷⢳⢀⠀⠀⠀
⠀⠀⣠⣿⣿⣿⢸⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⣿⣿⣿⣿⣿⢀
⠀⠀⣸⣿⣿⣿⠸⠀⠀⠀⠒⠒⠒⠐⠀⠀⢿⣿⣿⣿⣿⣿⠀⠀
⠀⣴⣿⣿⣿⡿⠀⠒⣋⣙⡒⢰⠀⠤⣖⠒⢾⣿⣿⣿⣿⣧⠀⠀
⢺⣿⣿⣿⣿⢀⠀⠀⠉⠉⠉⠸⠀⡇⠉⠉⠀⢿⣿⣿⣿⣄⠀⠀
⠀⠙⣿⣿⣧⢻⠀⠀⠀⠀⠀⠠⠀⠰⠀⠀⠀⣸⠸⣿⣿⠿⠰⠀
⠀⠀⠀⠹⣿⣿⣿⣷⠀⡠⠙⣲⣔⣅⢡⣰⣷⣿⣿⣿⣧⠀⠀⠀
⠀⠀⠀⣼⣿⣿⣿⣿⠀⡿⠭⠭⠭⠭⢿⠀⣿⢻⣿⣿⠃⠀⠀⠀
⠀⠀⠀⠙⠛⣿⢻⠹⣿⠐⠙⠛⠟⠉⢀⣴⡟⢿⣿⡏⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⡟⠀⠀⠻⣦⣤⣶⠾⠋⠀⠀⠁⡦⢄⢀⠀⠀⠀
⠀⠀⠀⠀⡠⠁⡇⠑⢄⠀⠀⠀⠀⠀⠀⠔⠀⠀⠁⠀⠀⠀⠉⠁
⠀⠔⠊⠁⠀⠀⣇⠀⠀⠀⠑⡤⠤⢎⠁⠀⠀⡘⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⢢⠠⠀⡠⢆⠀⠀⡠⠙⢄⠀⡸⠀⠀⠀⠀⠀⠀
```

