# <font color = Crimson size = 6> <b>Группировка данных</b> </font>

___
## <font color = DarkGreen size = 5> <b>Аналитическая группировка</b> </font>

Даны два вариационных ряда $X$ и $Y$. Показатель $X$ называется **факторным (причинным)** или **признаком-фактором**. Показатель $Y$ называется **результативным (следственным)** или **признаком-результатом**. Требуется установить наличие и характер корреляционной связи.

Под характером связи понимается её направление, при этом возможны следующие варианты:
* прямая связь («чем больше, тем больше»);
* обратная связь («чем больше, тем меньше»);
* отсутствие связи («чем больше, тем так же хаотично»).

**Аналитическая группировка** – позволяет выяснить наличие и направление корреляционной связи между признаком-фактором $X$ и признаком-результатом $Y$.

Прежде всего, нужно определить *признак-фактор* и *признак-результат*. Самостоятельно, на основе логических рассуждений. Тут же высказываем предположение о наличии и направлении предполагаемой *корреляционной связи*.

1) Сначала нужно упорядочить совокупность по признаку-фактору.

2) Выполнить группировку совокупности по признаку-фактору (можно стандартную равноинтервальную группировку).

3) Найти эмпирический коэффициент детерминации и связанное с ним эмпирическое корреляционное отношение.


##### <font color = SlateBlue size = 3> Пример </font>

**Имеются выборочные данные о выпуске продукции (млн. руб.) и прибыли (млн. руб.) по 30 предприятиям за некоторый период:**

**1) Методом аналитической группировки установите наличие и характер корреляционной связи между стоимостью произведенной продукции и прибылью.**

In [1]:
import numpy as np
import pandas as pd

df = pd.DataFrame({'ncomp': list(range(1,31)),
                   'output': [65, 78, 41, 54, 66, 80, 45, 57, 67, 81, 92, 48, 59,  68, 83,
                              52, 62, 69, 85, 70, 71, 64, 72, 88, 73, 74, 96, 75, 101, 76],
                   'margin': [15.7, 18.0, 12.1, 13.8, 15.5, 17.9, 12.8, 14.2, 15.9, 17.6, 18.2, 13.0, 15.5, 16.2, 16.7,
                              14.6, 14.8, 16.1, 16.7, 15.8, 16.4, 15.0, 16.5, 18.5, 16.4, 16.0, 19.1, 16.3, 19.6, 17.2]
                  })
df

Unnamed: 0,ncomp,output,margin
0,1,65,15.7
1,2,78,18.0
2,3,41,12.1
3,4,54,13.8
4,5,66,15.5
5,6,80,17.9
6,7,45,12.8
7,8,57,14.2
8,9,67,15.9
9,10,81,17.6


$X$ – выпуск продукции по предприятиям (в млн. руб.), $Y$ – прибыль по соответствующим предприятиям (тоже в млн. руб.). \
Гипотеза: общая тенденция состоит в том, что при увеличении выпуска продукции, увеличивается и средняя прибыль по предприятиям.

Упорядочим совокупность по признаку-фактору $X$: расположим предприятия по возрастанию выпуска продукции.

In [2]:
df = df.sort_values('output')
df

Unnamed: 0,ncomp,output,margin
2,3,41,12.1
6,7,45,12.8
11,12,48,13.0
15,16,52,14.6
3,4,54,13.8
7,8,57,14.2
12,13,59,15.5
16,17,62,14.8
21,22,64,15.0
0,1,65,15.7


Теперь выполняем группировку совокупности – опять же по признаку-фактору (выпуску продукции). Используем стандартную равноинтервальную группировку. Оптимальное количество интервалов определим по формуле Стерджеса: $k = 1 + 3.322\cdot\lg{n}$

In [3]:
from math import log10

n = df.shape[0]
k = int(1 + 3.322 * log10(n))
k

5

Длина интервала: $\displaystyle h = \frac{x_{max}-x_{min}}{k}$

In [4]:
x_min, x_max = df['output'].min(), df['output'].max()
h = (x_max - x_min)/k
h

12.0

In [5]:
df['interval'] = pd.cut(df['output'], bins = [41,53,65,77,89,101.0001], right=False)
df

Unnamed: 0,ncomp,output,margin,interval
2,3,41,12.1,"[41.0, 53.0)"
6,7,45,12.8,"[41.0, 53.0)"
11,12,48,13.0,"[41.0, 53.0)"
15,16,52,14.6,"[41.0, 53.0)"
3,4,54,13.8,"[53.0, 65.0)"
7,8,57,14.2,"[53.0, 65.0)"
12,13,59,15.5,"[53.0, 65.0)"
16,17,62,14.8,"[53.0, 65.0)"
21,22,64,15.0,"[53.0, 65.0)"
0,1,65,15.7,"[65.0, 77.0)"


In [7]:
df_group = (df.groupby('interval')
            .agg({'output': 'count', 'margin': 'mean'})
            .reset_index()
            .rename(columns={'interval': 'output_int', 'output': 'ni', 'margin': 'My'})
           )
df_group

Unnamed: 0,output_int,ni,My
0,"[41.0, 53.0)",4,13.125
1,"[53.0, 65.0)",5,14.66
2,"[65.0, 77.0)",12,16.166667
3,"[77.0, 89.0)",6,17.566667
4,"[89.0, 101.0)",3,18.966667


#### 2) Измерьте тесноту корреляционной связи между стоимостью произведенной продукции и прибылью *эмпирическим корреляционным отношением*

Насколько СИЛЬНО влияет факторный признак на результат, насколько теснА связь между факторами? \
Ответы на этот вопрос дают **эмпирический коэффициент детерминации** и связанное с ним **эмпирическое корреляционное отношение**.

**Эмпирический коэффициент детерминации**

Прибыль (признак-результат) варьируется под влиянием самых разных факторов, их может быть довольно много. И общая дисперсия $\sigma_y^2$ учитывает ВСЕ факторы, влияющие на изменение прибыли.

Мы разбили совокупность на группы, причём, в основу группировки был положен выпуск продукции (один из факторов). Существенность влияния ЭТОГО фактора измеряется межгрупповой дисперсией $\delta_y^2$. И эмпирический коэффициент детерминации $\eta^2 = \cfrac{\delta^2}{\sigma^2}$ показывает ДОЛЮ влияния группировочного признака – чем ближе этот коэффициент к единице, тем сильнее влияние причины на следствие.

**Эмпирическое корреляционное отношение**

$\eta = \sqrt{\cfrac{\delta^2}{\sigma^2}}$ характеризует тесноту (силу) связи между признаками.

In [8]:
# общая дисперсия
Dy = np.var(df['margin'])
Dy

3.1461

In [9]:
My = np.mean(df['margin'])
My

16.07

In [10]:
# Межгрупповая дисперсия
d = sum((df_group['My'] - My)**2 * df_group['ni'])/n
d

2.7785611111111117

In [11]:
# эмпирический коэффициент детерминации
eta2 = d / Dy
eta2

0.8831763488481331

In [12]:
# эмпирическое корреляционное отношение
eta = np.sqrt(eta2)
eta

0.9397746266249867

$\eta=0.94$, таким образом, прибыль предприятий очень сильно зависит от стоимости выпущенной продукции.