# Настройка ноутбука

In [1]:
import pandas as pd
import numpy as np
import datetime as dt

import random
import scipy.stats as st

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
# Расширить рабочее поле ноутбука на весь экран
from IPython.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

# Описание

Ноутбук представляет практики формирования репрезентативной выборки для исследовонания некоторой генеральной совокумности.

**Курс:**
- [Stepik: Основы статистики ч.1 - Генеральная совокупность и выборка](https://stepik.org/lesson/8074?unit=1354)

**Видео:**
- [StatQuest: Sampling from a Distribution, Clearly Explained!!!](https://www.youtube.com/watch?v=XLCWeSVzHUU)
- [StatQuest: Sample Size and Effective Sample Size, Clearly Explained!!!](https://www.youtube.com/watch?v=67zCIqdeXpo)

**Статьи:**
- [Medium: Mastering Random Sampling in Python](https://towardsdatascience.com/mastering-random-sampling-in-python-ac2df84b7d3f)

# Отдельные наблюдения и выборка событий

Значительная часть нашего жизненного опыта базируется на отдельных наблюдениях (anecdotal evidence). Если ммы прикоснулись к горячей сковородке и обожглись, то мы, опираясь на этот единственный случай, приходим к выводу, что горячие сковородки обжигают и всегда будут обжигать и их лучше не трогать. В подобных примерах можно обойтись без статистического анализа.Многие события всегда происходят одинаково (по крайней мере в пределах наблюдаемой вселенной). В статистике про такие события говорят, что они *репрезентативны для распределения событий*.

Однако в жизни часто случаются ситуации, исход которых зависит от множества скрытых факторов. Природа этих процессов не ясна, а потому их исходы сложно предсказать. Если гладить собаку, она может укусить, однако это не значит, что все сабаки всегда кусаются. В подобных ситуациях мы вынуждены принимать решение основываясь ни на одном, а на множестве наблюдений. Тоесть некоторой выборке исходов события.

# Репрезентативность

Есть события, которые всегда происходят одинаково. Если отпустить что-то тяжелое, оно непременно упадет. Это неизменно, если вы находитесь на Земле. Как событие произошло в первый раз, так оно и будет происходить всегда. В статистике про такие события говорят, что они *репрезентативны для распределения событий*. — "Цифры врут", Том Чиверс, Девид Чиверс

Чем больше выборка, тем меньше вероятность, что случайные вариации повлияют на результат. Вопрос: сколько нужно сделать измерений для надежной оценки? Ответ: бывает по-разному.

Это зависит от множества фактором, но один из самых главных - величина изучаемого эффекта. Чем она меньше, тем больше измерений нужно сделать — по-научному, тем большая "статистическая мощьность" требуется. Если вдуматься, это совершенно очевидно. Для ответа на вопрос "Вреден ли для здоровья выстрел в голову?" не нужна выборка из десяти тысяч человек. — "Цифры врут", Том Чиверс, Девид Чиверс

## Методы формирования выборки

### Простая случайная выборка (simple random sample)

Случайным образом выбираем примеры из генеральной совокупности.

### Стратифицированная выборка (stratified sample)

Перед тем как выбирать случайные примеры из генеральной совокупности, разобьем ее на несколько различной по своей природе страт (груп). Тоесть, чтобы составить репрезентативную выборку генеральной совокупности, вначале мы должны разобраться в ее устройстве.

Пример: При тестировании припарата разделим испытуемых на страты в соответствии с полом и группой крови.

### Групповая выборка (cluster sample)

Перед тем как выбирать случайныем примеры из генеральной совокупности, разобьем ее на несколько похожих друг на друга кластеров. Обычно такой метод используется, чтобы сэкономить ресурсы при сборе данных.

Пример: мы хотим собрать отзывы учителей о новой образовательной программе, которая вводится одновременно во всех школах. Мы можем опросить по одному учителю из каждой школы, но это затратно. А можем опросить несколько учетелей в пределах одной школы, при этом сократив количества школ, в которых будет проводиться опрос. 

# Несмещенность

Вред от смещенных выборок отличается от вреда маленьких. При выборе небольших групп случайным образом вы, по крайней мере, при увеличении размеров выборки приближаетесь к точному результату. А при смещенных выборках этого не происходит — будет расти лишь ваша уверенность в неверном результате. — "Цифры врут", Том Чиверс, Девид Чиверс

# Инструменты для формирования выборки

In [4]:
mu = 3 # mean value - среднее значение
sigma = 2 # standart deviation - стандартное отклонение

# Сгенерим нашу генеральную совокупность
genpop = pd.Series(np.random.normal(mu, sigma, 10_000))

#### Series.sample()

In [6]:
sample = genpop.sample(n=300, random_state=1)
sample.mean()

3.0800633777714443

#### random.sample

In [13]:
sample = random.sample(genpop.tolist(), 300)
np.mean(sample)

3.196529092030862

#### random.choices

In [15]:
sample = random.choices(genpop.tolist(), k=300)
np.mean(sample)

3.1119963536376916