# Введение в ТВиМС
## Практикум 1.1. Описание выборок


### Часть 1. Описание выборки, сохранённой внутри массива

Для работы в этой части практикума нам понадобится библиотека `numpy` (от *Numeric Python*, библиотека для эффективной работы с числовыми массивами) и модуль `pyplot` из библиотеки `matplotlib` (от *mathematical plots library*, библиотека для построения графиков).

Импортируем их с сокращёнными названиями:

In [None]:
import numpy as np
from matplotlib import pyplot as plt

Создадим массив NumPy со средними ценами на бензин марки А-92 в регионах Сибирского федерального округа по состоянию на январь 2023 года (Республика Алтай, Республика Тыва, Республика Хакасия, Алтайский край, Красноярский край, Иркутская область, Кемеровская область, Новосибирская область, Омская область, Томская область):

In [None]:
sample = np.array([46.76, 45.98, 45.82, 44.72, 46.13, 
                 47.99, 44.60, 45.81, 44.91, 44.95])

Почему мы сохранили значения в массив, а не в обычный список? С массивами удобнее работать, на них определены векторизованные операции, то есть операции, которые можно применить к каждому элементу безо всяких циклов и их аналогов. Например, мы можем округлить сразу все значения до целых:

In [None]:
sample.round()

Или домножить всё на 100:

In [None]:
sample * 100

Или вычислить среднее и стандартное отклонение, а затем выполнить стандартизацию:

In [None]:
average = sample.mean()
std = sample.std()

(sample - average) / std

В библиотеке NumPy есть ряд методов и функций, которые позволяют описывать выборки. 

In [None]:
# минимум и максимум

print("Минимум:", sample.min())
print("Максимум:", sample.max())

In [None]:
# среднее арифметическое

print("Среднее:", sample.mean())

In [None]:
# выборочная дисперсия (смещенная оценка)
# выборочная дисперсия (несмещенная оценка)

print("Дисперсия (деление на n):", sample.var())
print("Дисперсия (деление на n-1):", sample.var(ddof = 1))

In [None]:
# выборочное стандартное отклонение

print("Стандартное отклонение:", sample.std(ddof = 1))

In [None]:
# выборочная медиана и выборочные квартили

print("Медиана:", np.median(sample))
print("Нижний квартиль:", np.quantile(sample, 0.25))
print("Верхний квартиль:", np.quantile(sample, 0.75))

В библиотеке `numpy` нет удобной функции для нахождения рангов, поэтому здесь придётся задействовать ещё один модуль – модуль `stats` из библиотеки `scipy` (от *Scientific Python*, библиотека для научных вычислений). Импортируем оттуда только одну функцию для вычисления рангов `rankdata()`:

In [None]:
from scipy.stats import rankdata

In [None]:
rankdata(sample)

Построим гистограмму для имеющейся выборки:

In [None]:
plt.hist(sample, color = "cornflowerblue", edgecolor = "white");

Скорректируем число столбцов:

In [None]:
plt.hist(sample, color = "cornflowerblue", edgecolor = "white",
        bins = 5);

Скорректируем подписи к осям:

In [None]:
plt.hist(sample, color = "cornflowerblue", edgecolor = "white", bins = 5);
plt.xlabel("Цены на бензин");
plt.ylabel("Частоты");
plt.xticks(ticks = range(44, 49));
plt.yticks(ticks = range(0, 5));

Давайте выясним, есть ли в выборке нетипичные значения!

In [None]:
### YOUR CODE HERE ###

Проверим наши результаты – построим ящик с усами:

In [None]:
### YOUR CODE HERE ###

### Часть 2. Описание выборки, сохранённой в виде столбца таблицы

В этой части практикума нам понадобится библиотека `pandas`, которая позволяет удобно работать с таблицами и обрабатывать данные, загруженные из файлов Excel или CSV. Импортируем её.

In [None]:
import pandas as pd

Создадим массив с названиями регионов:

In [None]:
regions = np.array(["Республика Алтай", "Республика Тыва",
           "Республика Хакасия", "Алтайский край",
           "Красноярский край", "Иркутская область",
           "Кемеровская область", "Новосибирская область",
           "Омская область", "Томская область"])

Вспомним, какая у нас была выборка:

In [None]:
sample = np.array([46.76, 45.98, 45.82, 44.72, 46.13, 
                 47.99, 44.60, 45.81, 44.91, 44.95])

Создадим датафрейм – таблицу `df`, структура которой будет такой:

* один столбец с названием `ai92`, в него помещаем значения из `sample`;
* названия строк (`index`) совпадают с названиями регионов из `regions`.

In [None]:
df = pd.DataFrame({"ai92" : sample}, index = regions)
df

Выведем для столбца `ai92` основной набор описательных статистик:

In [None]:
df["ai92"].describe()

А теперь некоторые отдельные статистики:

In [None]:
print(df["ai92"].min())
print(df["ai92"].max())
print(df["ai92"].median())
print(df["ai92"].quantile(0.25))
print(df["ai92"].quantile(0.75))

Построим гистограмму и ящик с усами:

In [None]:
df.hist("ai92", color = "cornflowerblue", edgecolor = "white", bins = 5);

In [None]:
df.boxplot("ai92");