# Введение.

## Базовые возможности ноутбука

Импорт основных библиотек.

In [None]:
import numpy as np
import matplotlib.pylab as plt
import pandas as pd
import scipy.stats as st
import seaborn as sns
%matplotlib inline
plt.rcParams['figure.figsize'] = (10, 8)

Построение графиков

In [None]:
X = Y = range(10)
plt.plot(X, Y, label='y = x')
plt.legend(loc='best')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Title')
plt.show()

## Загрузка данных

Jupyter notebook позволяет выполнять консольные команды внутри основного кода. 

Попробуем скачать выборку домов в Бостоне  (Boston housing dataset) с использованием bash-команды.

Если у вас не выполняется данная команда, скачайте датасет вручную:

https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv

In [None]:
!wget https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv

Загрузим данные из csv-файла с помощью библиотеки pandas 

In [None]:
data = pd.read_csv('./BostonHousing.csv')

In [None]:
data.head()

Мы также можем загрузить данные с помощью библиотеки numpy.

Попробуем загрузить выборку с помощью функции ```numpy.loadtxt```

In [None]:
data2 = np.loadtxt('./BostonHousing.csv', delimiter=',', skiprows=1)

In [None]:
!head BostonHousing.csv

In [None]:
def convert(x):    
    return float(x.strip(b'"'))
                 
data2 = np.loadtxt('./BostonHousing.csv', delimiter=',', skiprows=1, converters={3:lambda x:convert(x)})

In [None]:
data2

Проверим что данные совпадают

In [None]:
data.values - data2

## Визуализация

Рассмотрим описание столбцов матрицы, описывающей выборку

```CRIM: Per capita crime rate by town
ZN: Proportion of residential land zoned for lots over 25,000 sq. ft
INDUS: Proportion of non-retail business acres per town
CHAS: Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
NOX: Nitric oxide concentration (parts per 10 million)
RM: Average number of rooms per dwelling
AGE: Proportion of owner-occupied units built prior to 1940
DIS: Weighted distances to five Boston employment centers
RAD: Index of accessibility to radial highways
TAX: Full-value property tax rate per $10,000
PTRATIO: Pupil-teacher ratio by town
B: 1000(Bk — 0.63)², where Bk is the proportion of [people of African American descent] by town
LSTAT: Percentage of lower status of the population
MEDV: Median value of owner-occupied homes in $1000s```

Будем работать со столбцом MEDV

In [None]:
x = data['medv'].values

Гистограмма

In [None]:
_ = plt.hist(x)

Ядерная оценка

In [None]:
sns.kdeplot(x)

In [None]:
sns.distplot(x)

Отобразим корреляционную матрицу для всех признаков объекта

In [None]:
matrix = np.corrcoef(data.values, rowvar=False)
plt.matshow(matrix)

Построим аналогичный график в seaborn + pandas

In [None]:
cor = data.corr().round(2)
sns.heatmap(data=cor, annot=True)

Построим попарные диаграммы рассеяния для первых трех признаков

In [None]:
sns.pairplot(data.iloc[:,0:3])

Сделаем аналогичный график в matplotlib

In [None]:
def make_scatter(i,j, subplot):
    subplot.scatter(data.values[:, i], data.values[:, j])

def make_plot(i,j, subplot):
    if i == j:
        # ваш код
    else:
        # ваш код
    
for i in range(3):
    for j in range(3):
        subplot = plt.subplot(3,3,i*3+j+1) # нумерация с единицы
        make_plot(i,j,subplot)
        

## Выборочные оценки

Среднее

In [None]:
np.mean(x)

Медиана

In [None]:
np.median(x)

Мода

In [None]:
st.mode(x)

Проверим моду

In [None]:
len(np.where(x==50)[0])

Дисперсия

In [None]:
np.std(x), np.std(x, ddof=1) #несмещенная оценка


Максимум и минимум

In [None]:
np.max(x), np.min(x)

Квантиль

In [None]:
alpha = 0.5
np.quantile(x, alpha)

Интерквартильный размах

In [None]:
# ваш код

```Ожидаемый ответ: ~7.975```

Ранг $x=16$

In [None]:
x_16 = np.where(x==16)[0]
st.rankdata(x)[x_16]

Построим графики эмпирической функции распределения по выборке и ее подвыборке, содержащей только значения >= 21.2

In [None]:
plt.hist(x, cumulative=True, label='Full data')
plt.hist(x[x>=21.2], cumulative=True, label='X>=21.2')
plt.legend(loc='best')

Среднее по подвыборке

In [None]:
# ваш код

```Ожидаемый ответ: ~29```