In [1]:
import numpy as np
import pandas as pd

In [2]:
data = pd.DataFrame({'value' : np.arange(100), 'group' : np.random.choice(['A', 'B', 'C', 'D'], size=100)})
print(data.head())

   value group
0      0     A
1      1     C
2      2     C
3      3     D
4      4     D


In [22]:
## Простая случайная выборка (Simple random sample)
simple_random_sample = np.random.choice(data['value'], 10)
print(simple_random_sample)

[29 65 24 13 36 80 16 14  0 19]


In [45]:
## Стратифицированная выборка (Stratified sample)
# Например, выбрать 2 элемента из каждой группы
stratified_sample = data.groupby('group', group_keys=False).apply(lambda x: x.sample(2), include_groups=False)
print(stratified_sample['value'].values)

[14 78 17 70 39 13 63 98]


In [46]:
## Групповая выборка (Cluster sample)
# Например, выбрать все элементы случайной группы
cluster = np.random.choice(data['group'].unique())[0]
cluster_sample = data[data['group'] == cluster]
print(cluster_sample['value'].values)


[11 15 17 19 21 24 28 31 32 36 43 47 49 51 57 69 70 72 74 86 89 93]


In [95]:
# Меры центральной тенденции — статистические показатели, которые описывают центр или "среднюю" величину распределения данных.

data = pd.Series([1, 2, 2, 3, 3, 10])

# Мода - значение, которое встречается в наборе данных наибольшее количество раз:
print(f'Moda: {data.mode().tolist()}')

# Медиана — значение, которое делит данные пополам:
print(f'Median: {data.median()}')

# Среднее — сумма всех значений, разделённая на количество элементов:
print(f'Mean: {data.mean()}')

Moda: [2, 3]
Median: 2.5
Mean: 3.5


In [96]:
# Меры изменчивости — статистические показатели, которые описывают степень разброса или вариативности данных.

# Размах — разница между максимальным и минимальным значением в наборе данных:
print(f'Range: {data.max() - data.min()}')

# Дисперсия показывает, насколько сильно отклоняются значения от среднего: (дисперсия вычисляется как среднее значение квадратов отклонений данных от их среднего, с учётом корректировки на количество элементов (вычитание 1 из общего числа элементов)
print(f'Variance: {data.var()}')

# Стандартное отклонение — корень из дисперсии. (data.var() ** 0.5) Оно выражает разброс данных в тех же единицах, что и сами данные.
# (Средняя величина отклонений)
print(f'Standard Deviation: {data.std()}')

# Коэффициент вариации — это отношение стандартного отклонения к среднему значению. Он показывает относительную изменчивость данных (насколько сильно изменяются данные относительно их среднего значения)
# Меньший коэффициент вариации указывает на более стабильные данные.
print(f'Coefficient of Variation: {data.std() / data.mean() * 100}')

Range: 9
Variance: 10.7
Standard Deviation: 3.271085446759225
Coefficient of Variation: 93.45958419312072
