# Основы анализа данных в Python

*Алла Тамбовцева*

## Практикум 6. Доверительный интервал для среднего нормальной выборки

Импортируем необходимые библиотеки и модули:

In [None]:
import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

## Часть 1: вспоминаем нормальное распределение и распределение Стьюдента

*Код в этой части практикума не является обязательным для запоминания и досконального изучения, мы будем использовать его для вычисления вероятностей и изображения графиков плотности нормальных распределений с разными параметрами. Однако, методы для нахождения квантилей разных распределений могут пригодиться для построения доверительных интервалов.*

Допустим, нас интересует нормальное распределение со средним 10 и дисперсией 25, то есть $N(a=10, \sigma^2=25)$. В Python (и в других языках обычно тоже) для создания нормальных случайных величин и выборок из них в качестве второго параметра используется стандартное отклонение $\sigma$, а не дисперсия $\sigma^2$. Сохраним параметры распределения в переменные:

In [None]:
a = 10
sigma = 5

Воспользумся функцией `norm()` из модуля `stats` и создадим случайную величину `X`:

In [None]:
X = stats.norm(loc = a, scale = sigma)
print(X) # не массив, особый объект

Мы знаем, что плотность распределения нормальной случайной величины похожа на симметричный колокол. Как построить график плотности распределния в Python? 

Python строит графики исключительно по точкам, поэтому сначала нам нужно получить массив из достаточно большого числа значений случайной величины. В каждом значении мы вычислим плотность нормального распределения, а затем нанесём на график полученные результаты и соединим их линией.

**Вопрос 1.** Почему нам требуется достаточно много точек?

**Вопрос 2.** В каком интервале находятся 99.8% значений нормальной случайной величины с заданными параметрами? Вычислите левую и правую границу такого интервала и сохраните их в переменные `left` и `right`.

In [None]:
### YOUR CODE HERE ###

Отлично, теперь мы сможем создать массив значений от `left` до `right`, состоящий, например, из 100 точек, равноудаленных друг от друга:

In [None]:
# функция linspace() от linear space
x_ = np.linspace(left, right, num = 100)
print(x_)

И в каждой точке вычислить значение плотности, применив метод `.pdf()`, от *probability density function*:

In [None]:
print(X.pdf(x_))

Нанесем точки на график:

In [None]:
x_ = np.linspace(left, right, num = 100)

# в plot(): значения по оси X, значения по оси Y
# добавляем сетку grid
# и подписи к осям

plt.plot(x_, X.pdf(x_));
plt.grid();
plt.xlabel("Значения");
plt.ylabel("Плотность вероятностей");

Можем вычислить значения плотности в отдельных точках:

In [None]:
print(X.pdf(10))
print(X.pdf(20))

**Вопрос.** Что означают полученные значения?

Также мы можем вычислить вероятность попадания в тот или иной интервал. На объектах типа *случайная величина* есть метод `.cdf()`, от *cumulative density function*, который считает вероятность, «накопленную» к определенному моменту. Вычислим вероятности $P(X < 10) = P(X \leqslant 10)$ и $P(X < 20) = P(X \leqslant 20)$:

In [None]:
print(X.cdf(10))
print(X.cdf(20))

**Вопрос.** Как теперь вычислить вероятность $P(10 < X < 20)$?

In [None]:
### YOUR CODE HERE ###

Давайте визуализируем эту вероятность – закрасим соответствующую площадь под графиком плотности!

In [None]:
# по аналогии с примером выше получаем набор точек от 10 до 20
# вычисляем в каждой точке плотность
# это будут границы закрашенной области

interval = np.linspace(10, 20, num = 100)
density = X.pdf(interval)

In [None]:
# прошлый код + черный цвет линии

plt.plot(x_, X.pdf(x_), color = "black");
plt.grid();
plt.xlabel("Значения");
plt.ylabel("Плотность вероятностей");

# закрашиваем область, 
# ограничитель по x – interval, по y – density, 
# далее цвет и прозрачность

plt.fill_between(interval, density, color = "red", alpha = 0.3);

### Задача 1

Создайте стандартную нормальную величину `Z` и постройте график плотности ее распределения.

In [None]:
### YOUR CODE HERE ###

### Задача 2

На объектах типа *случайная величина* есть метод `.ppf()` от *percent point function*, функция процентных точек, которая находит точку, слева от которой находится $p \cdot 100$% значений случайной величины. Другими словами, этот метод позволяет вычислять квантили.

Вычислите для стандартной нормальной величины `Z`:

* медиану;
* квантиль уровня 0.9;
* квантиль уровня 0.1.

In [None]:
### YOUR CODE HERE ###

Ниже приведен код для иллюстрации полученных результатов – графиков с закрашенной площадью.

In [None]:
plt.plot(z_, Z.pdf(z_), color = "black");
plt.grid();
plt.xlabel("Значения");
plt.ylabel("Плотность вероятностей");
plt.fill_between(np.linspace(-3, 1.28, num = 100), 
                  Z.pdf(np.linspace(-3, 1.28, num = 100)), 
                 color = "orangered", alpha = 0.3);

In [None]:
plt.plot(z_, Z.pdf(z_), color = "black");
plt.grid();
plt.xlabel("Значения");
plt.ylabel("Плотность вероятностей");
plt.fill_between(np.linspace(-3, -1.28, num = 100), 
                  Z.pdf(np.linspace(-3, -1.28, num = 100)), 
                 color = "blue", alpha = 0.3);

### Задача 3

Ниже приведен код, который строит график плотности стандартного нормального распределения, и закрашивает на нем площадь равную 0.95 на отрезке, симметричном относительно 0:

In [None]:
plt.plot(z_, Z.pdf(z_), color = "black");
plt.grid();
plt.xlabel("Значения");
plt.ylabel("Плотность вероятностей");

plt.fill_between(np.linspace(-1.96, 1.96, num = 100), 
                 Z.pdf(np.linspace(-1.96, 1.96, num = 100)), 
                 color = "green", alpha = 0.3);

plt.vlines(x = [-1.96, 1.96], 
           ymin = 0, 
           ymax = Z.pdf(1.96), 
           color = "black", 
           linestyle = "--");

plt.text(s = "95%", 
         x = 0.1, 
         y = 0.2, 
         fontsize = 18,
         horizontalalignment = "center");

Квантиль какого уровня нужно вычислить, чтобы найти $z^*$?

In [None]:
### YOUR CODE HERE ###

### Задача 4

Создадим случайную величину, имеющую распределение Стьюдента с 4 степенями свободы и построим в одних осях график ее плотности и плотности стандартной нормальной случайной величины:

In [None]:
T = stats.t(df = 4)

In [None]:
# просто два раза plot()
# по оси X одни и те же значения z_
# по оси Y – для каждого графика своя плотность

plt.plot(z_, Z.pdf(z_), color = "navy");
plt.plot(z_, T.pdf(z_), color = "red");

plt.grid();
plt.xlabel("Значения");
plt.ylabel("Плотность вероятностей");

Прокомментируйте различия. Вычислите для величины `T` квантиль того же уровня, что и в предыдущей задаче. Сравните результаты. 

In [None]:
### YOUR CODE HERE ###

## Часть 2: доверительный интервал для среднего нормальной выборки

### Задача 1 (из демоверсии НЭ)

Винни-Пух в течение 150 дней фиксировал изменения количества пчёл в улье. Он уверен, что полученные наблюдения являются выборкой независимых одинаково распределённых нормальных случайных величин. Оказалось, что среднее количество пчёл равно 25000, а выборочная дисперсия равна 1300. Постройте 95%-ый доверительный интервал для математического ожидания количества пчёл в улье и выпишите в ответ его нижнюю границу, округлённую до целого.

Пример ответа: 1500

In [None]:
### YOUR CODE HERE ###

### Задача 2

*Выборка взята из другой задачи демоверсии НЭ, задача переделана.*

Ниже приведены данные об уровне осадков в некотором регионе России:

[103.01, 101.99, 105.21, 106.80, 112.70, 106.13, 110.48, 109.26, 100.44, 100.28].

Предполагая, что наблюдения являются выборкой независимых одинаково распределённых нормальных случайных величин, постройте 90%-ый доверительный интервал для математического ожидания уровня осадков в этом регионе.

In [None]:
### YOUR CODE HERE ###