# <font color = Crimson size = 6> <b>Группировка данных</b> </font>

<u>**Группировка**</u> – это разделение статистической совокупности (генеральной или выборочной) на группы по одному или бОльшему количеству признаков.

**Виды группировок**:
* типологическая группировка
* структурная группировка
* аналитическая группировка
* комбинационная группировка

___
## <font color = DarkGreen size = 5> <b>Типологическая и структурная группировки</b> </font>

<u>**Типологическая группировка**</u> – это разделение неоднородной статистической  совокупности на качественно однородные группы.

Полученные группы исследуются по отдельности и сравниваются – как между собой, так и с общими показателями. \
При этом проводится <u>**структурная группировка**</u> – это разделение качественно однородной совокупности по какому-либо вариационному признаку. \
Довольно часто грань между типологической и структурной группировкой стирается.

>Следует отметить, что при кажущейся простоте провести подобную группировку бывает не так-то просто. Трудность состоит в том, чтобы грамотно выделить различные категории (типы), и для этого, порой, исследуют целый комплекс показателей.

##### <font color = SlateBlue size = 3> Пример </font>

**В результате выборочного исследования 30 станков рассчитаны их относительные показатели металлоёмкости (т/кВт).**

In [1]:
import numpy as np

X = np.array([6, 3.3333, 0.3333, 0.15, 1.2609, 0.875, 0.5789, 2, 2.1419, 0.8182, 1.1818, 3.75, 0.5556, 0.6923,
              2.5, 2.1667, 1.4286, 0.5, 8, 2.3333, 1.6667, 0.4, 2.6667, 1.6667, 1.2, 0.5, 2, 0.8571, 0.9333, 6])

n = X.shape[0]
print(f'{n = :.2f}')

n = 30.00


**1) вычислить общую среднюю и общую дисперсию**

In [2]:
Mx = np.mean(X)
print(f'{Mx = :.2f}')

Dx = np.var(X)
print(f'{Dx = :.2f}')

Mx = 1.95
Dx = 3.34


**2) выполнить структурную равноинтервальную группировку (*построить интервальный вариационный ряд с равными интервалами*)**

В условии ничего не сказано о количестве интервалов, и поэтому для определения их оптимального количества используем формулу Стерджеса: $k = 1 + 3.322\cdot\lg{n}$ – оптимальное количество интервалов, при этом результат округляют до ближайшего левого целого значения.

Длина интервала: $\displaystyle h = \frac{x_{max}-x_{min}}{k}$

In [4]:
from math import log10
import pandas as pd

k = int(1 + 3.322 * log10(n))
print(f'{k = :.2f}')

h = (X.max() - X.min())/k
print(f'{h = :.2f}')

Xdf = pd.DataFrame({'xi': X,
                    'int': pd.cut(pd.Series(X), bins = np.linspace(X.min(), X.max()+0.0001,6), right=False)})

df = Xdf.groupby(['int']).count().rename(columns={'xi': 'ni'})
df

k = 5.00
h = 1.57


Unnamed: 0_level_0,ni
int,Unnamed: 1_level_1
"[0.15, 1.72)",18
"[1.72, 3.29)",7
"[3.29, 4.86)",2
"[4.86, 6.43)",2
"[6.43, 8.0)",1


**3) выполнить структурную равнонаполненную группировку**

Это разбиение совокупности на группы с одинаковым (или примерно одинаковым) количеством объектов. Но интервалы здесь получатся разной длины.

Отсортируем числа по возрастанию и выделим 5 групп.

In [5]:
#np.reshape(np.sort(X),(5,6))
np.sort(X).reshape(5,-1)

array([[0.15  , 0.3333, 0.4   , 0.5   , 0.5   , 0.5556],
       [0.5789, 0.6923, 0.8182, 0.8571, 0.875 , 0.9333],
       [1.1818, 1.2   , 1.2609, 1.4286, 1.6667, 1.6667],
       [2.    , 2.    , 2.1419, 2.1667, 2.3333, 2.5   ],
       [2.6667, 3.3333, 3.75  , 6.    , 6.    , 8.    ]])

Некоторые значения логичнее перенести в соседние группы. Так, значение 0,5789 ближе к 1-й группе, а значение 2,6667 – к предпоследней группе.

In [6]:
df = pd.DataFrame(np.array_split(np.sort(X),[7,12,18,25]))#.T
#df.columns = list(range(1,6))
df

Unnamed: 0,0,1,2,3,4,5,6
0,0.15,0.3333,0.4,0.5,0.5,0.5556,0.5789
1,0.6923,0.8182,0.8571,0.875,0.9333,,
2,1.1818,1.2,1.2609,1.4286,1.6667,1.6667,
3,2.0,2.0,2.1419,2.1667,2.3333,2.5,2.6667
4,3.3333,3.75,6.0,6.0,8.0,,


**4) выбрать наиболее удачную группировку и вычислить выборочные средние**

Очевидно, что равнонаполненная группировка более удачна.

In [11]:
df['Mx'] = df.iloc[:, 0:7].mean(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,Mx,Dx,ni
0,0.15,0.3333,0.4,0.5,0.5,0.5556,0.5789,0.431114,4.406472,7
1,0.6923,0.8182,0.8571,0.875,0.9333,,,0.83518,2.381375,5
2,1.1818,1.2,1.2609,1.4286,1.6667,1.6667,,1.400783,2.756867,6
3,2.0,2.0,2.1419,2.1667,2.3333,2.5,2.6667,2.258371,3.003762,7
4,3.3333,3.75,6.0,6.0,8.0,,,5.41666,2.466773,5


___
### <font color = MediumBlue size = 4> <b>Общая, групповые, внутригрупповая и межгрупповая дисперсия</b> </font>

<u>**Внутригрупповая дисперсия**</u> – это средневзвешенная арифметическая групповых дисперсий: \
$\bar{\sigma^2} = \cfrac{\sum{\sigma_i^2 n_i}}{n}$

>Внутригрупповая дисперсия характеризует среднюю (средневзвешенную) вариацию значений $x_i$ по группам.

<u>**Межгрупповая дисперсия**</u> – это дисперсия групповых средних относительно общей средней: \
$\delta^2 = \cfrac{\sum{(\bar{x_i}-\bar{x})^2 n_i}}{n}$

> Межгрупповая дисперсия характеризует меру разброса групповых средних относительно общей средней. Чем эта дисперсия больше, тем дальше расположены групповые средние $\bar{x_i}$ (многие из них) относительно общей средней $\bar{x}.$

Для общей, внутригрупповой и межгрупповой дисперсий справедливо так называемое **правило сложения дисперсий**: \
$\sigma^2 = \bar{\sigma^2} + \delta^2$, \
то есть общая дисперсия равна сумме внутригрупповой и межгрупповой дисперсии.

Общая дисперсия $\sigma^2$ характеризует *меру вариации* всей совокупности, т.е. **общая дисперсия учитывает все причины (факторы), которые обуславливают вариацию**.

**Межгрупповая дисперсия характеризует вариацию, обусловленную фактором, который лёг в основу группировки.**

**Внутригрупповая дисперсия отражает вариацию, обусловленную другими факторами.**




##### <font color = SlateBlue size = 3> Пример </font>

**5) вычислить групповые дисперсии, внутригрупповую дисперсию и межгрупповую дисперсию**

In [23]:
df['Dx'] = df.iloc[:, :7].var(axis=1, ddof=0)
df['ni'] = df.iloc[:, :7].count(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,Mx,Dx,ni
0,0.15,0.3333,0.4,0.5,0.5,0.5556,0.5789,0.431114,0.019484,7
1,0.6923,0.8182,0.8571,0.875,0.9333,,,0.83518,0.006479,5
2,1.1818,1.2,1.2609,1.4286,1.6667,1.6667,,1.400783,0.041672,6
3,2.0,2.0,2.1419,2.1667,2.3333,2.5,2.6667,2.258371,0.055173,7
4,3.3333,3.75,6.0,6.0,8.0,,,5.41666,2.894472,5


In [24]:
print(f'Общая дисперсия = {Dx:.4f}')

D = sum(df['Dx']*df['ni'])/n
print(f'Внутригрупповая дисперсия = {D:.4f}')

d = sum((df['Mx'] - Mx)**2 * df['ni'])/n
print(f'Межгрупповая дисперсия = {d:.4f}')

Общая дисперсия = 3.3402
Внутригрупповая дисперсия = 0.5092
Межгрупповая дисперсия = 2.8309


___
#### <font color = SteelBlue size = 3> <b>Эмпирический коэффициент детерминации</b> </font>

Чтобы оценить СУЩЕСТВЕННОСТЬ ВЛИЯНИЯ фактора, который лёг в основу группировки рассчитывают **эмпирический коэффициент детерминации** (*причинности*), равный отношению *межгрупповой* дисперсии к дисперсии *общей*: \
$\eta^2 = \cfrac{\delta^2}{\sigma^2}$

> Этот коэффициент характеризует долю вариации, объяснённую группировочным фактором.

Эмпирический коэффициент детерминации изменяется в пределах $0 \leq \eta^2 \leq 1$.

Чем $\eta^2$ ближе к единице, тем сильнее влияние группировочного фактора на вариацию статистической совокупности. \
Если $\eta^2=1$, то речь идёт о строгой функциональной зависимости, в этом случае $\sigma^2 = \delta^2$, то есть внутригрупповая дисперсия (по правилу сложения) равна нулю: $\bar{\sigma^2}=0$, и это в свою очередь означает, что в каждой группе находятся одинаковые и строго определённые значения (т.е. вариация по группам отсутствует).

Чем ближе $\eta^2$ к нулю, тем влияние группировочного фактора меньше. Математически это означает, что межгрупповая дисперсия $\delta^2$ слишком малА, а это в свою очередь значит, что групповые средние $\bar{x_i}$ расположены очень близко к общей средней $\bar{x}$. Если мы провели группировку и получили примерно одинаковые средние по группам, то влияние фактора явно слабО. Но это ещё не значит, что сам фактор не важный.
<br><br>

___
Для оценки силы влияния фактора используют **эмпирическое корреляционное отношение**: \
$\eta = \sqrt{\cfrac{\delta^2}{\sigma^2}} = \cfrac{\delta}{\sigma}$ – отношение соответствующих стандартных отклонений.

Данное отношение тоже изменяется в пределах $0 \leq \eta \leq 1$, и характеризует тесноту (силу) связи между признаками. Для качественной оценки этой силы часто используют так называемую шкалу Чеддока:

| Диапазон значений $\eta$ | Корреляционная зависимость $Y$ от $X$ |
| ----- | :----- |
| 0 - 0.1 | практически отсутствует |
| 0.1 - 0.3 | слабая |
| 0.3 - 0.5 | умеренная |
| 0.5 - 0.7 | заметная |
| 0.7 - 0.9 | сильная |
| 0.9 - 0.99 | очень сильная |
| 0.99 - 1 | практически функциональная |