In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

__РАЗДЕЛЕНИЕ ДАННЫХ__

__Группировка по значениям отдельного столбца__

In [2]:
# считываем данные
sensor_data = pd.read_csv('./sensors.csv')
sensor_data.head(5)

   interval sensor axis  reading
0         0  accel    Z      0.0
1         0  accel    Y      0.5
2         0  accel    X      1.0
3         1  accel    Z      0.1
4         1  accel    Y      0.4

In [3]:
# данные датчиков состоят из трех категориальных переменных (sensor, interval, axis) и одной количественной переменной (reading)
# Их можно сгруппировать с помощью любой категориальной переменной, передав имя переменной в метод .groupby ()
# группируем по столбцу Sensor
grouped_by_sensor = sensor_data.groupby('sensor')
grouped_by_sensor

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001E4FF7F23B0>

In [4]:
# это промежуточный объект представляющий собой промежточное описание группировки которую мы создадим. Это необходимо для
# проверки перед запуском затротного вычислительного процесса

# получаем информацию о количестве групп которые будут созданы
grouped_by_sensor.ngroups

2

In [5]:
# свойство .groups вернет питоновский словяр, ключи которого будут представлять имена каждой группы (если будет указано
# несколько столбцов, это будет кортеж)
grouped_by_sensor.groups

{'accel': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], 'orientation': [12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23]}

__Просмотр результатов группировки__

In [6]:
# вспомогательная функция, печатающая содержимое групп
def print_groups (group_object):
    # итерируем по всем группам, печатая название группы и первые пять наблюдений в ней
    for name, group in group_object:
        print(name)
        print(group[:5])

In [7]:
# смотрим содержимое созданных групп
print_groups(grouped_by_sensor)

accel
   interval sensor axis  reading
0         0  accel    Z      0.0
1         0  accel    Y      0.5
2         0  accel    X      1.0
3         1  accel    Z      0.1
4         1  accel    Y      0.4
orientation
    interval       sensor axis  reading
12         0  orientation    Z      0.0
13         0  orientation    Y      0.1
14         0  orientation    X      0.0
15         1  orientation    Z      0.0
16         1  orientation    Y      0.2


In [8]:
# метод .size() возвращает сводку о размере каждой группы
grouped_by_sensor.size()

sensor
accel          12
orientation    12
dtype: int64

In [9]:
# метод .count() возвращает количество элементов в каждом столбце каждой группы
grouped_by_sensor.count()

             interval  axis  reading
sensor                              
accel              12    12       12
orientation        12    12       12

In [10]:
# с помощью метода .get_group() можно извлечь любую конкретную группу
grouped_by_sensor.get_group('accel').head(5)

   interval sensor axis  reading
0         0  accel    Z      0.0
1         0  accel    Y      0.5
2         0  accel    X      1.0
3         1  accel    Z      0.1
4         1  accel    Y      0.4

In [11]:
# метод .nth() возвращает n-ю строку в каждой группе
grouped_by_sensor.nth(1)

    interval       sensor axis  reading
1          0        accel    Y      0.5
13         0  orientation    Y      0.1

In [12]:
# для вывода описательных статистик используем метод .describe()
grouped_by_sensor.describe()
                           

            interval                      ... reading                  
               count mean       std  min  ...     25%   50%    75%  max
sensor                                    ...                          
accel           12.0  1.5  1.167748  0.0  ...     0.2  0.35  0.725  1.0
orientation     12.0  1.5  1.167748  0.0  ...     0.0  0.10  0.225  0.4

[2 rows x 16 columns]

__Группировка по нескольким столбцам__

In [15]:
# группировку можно выполнить и по нескольким столбцам
# группируем по значениям sensor и axis
mcg = sensor_data.groupby(['sensor', 'axis'])
print_groups(mcg)

# поскольку было указано несколько столбцов, название каждой группы теперь является кортежем, представляющим уникальную
# комбинацию значений столбцов senssor и axis

('accel', 'X')
    interval sensor axis  reading
2          0  accel    X      1.0
5          1  accel    X      0.9
8          2  accel    X      0.8
11         3  accel    X      0.7
('accel', 'Y')
    interval sensor axis  reading
1          0  accel    Y      0.5
4          1  accel    Y      0.4
7          2  accel    Y      0.3
10         3  accel    Y      0.2
('accel', 'Z')
   interval sensor axis  reading
0         0  accel    Z      0.0
3         1  accel    Z      0.1
6         2  accel    Z      0.2
9         3  accel    Z      0.3
('orientation', 'X')
    interval       sensor axis  reading
14         0  orientation    X      0.0
17         1  orientation    X      0.1
20         2  orientation    X      0.2
23         3  orientation    X      0.3
('orientation', 'Y')
    interval       sensor axis  reading
13         0  orientation    Y      0.1
16         1  orientation    Y      0.2
19         2  orientation    Y      0.3
22         3  orientation    Y      0.4
('orient

__Группировка по уровням индекса__

In [16]:
# создаем копию данных и заново индексируем ее
mi = sensor_data.copy()
mi = mi.set_index(['sensor', 'axis'])
mi

                  interval  reading
sensor      axis                   
accel       Z            0      0.0
            Y            0      0.5
            X            0      1.0
            Z            1      0.1
            Y            1      0.4
...                    ...      ...
orientation Y            2      0.3
            X            2      0.2
            Z            3      0.0
            Y            3      0.4
            X            3      0.3

[24 rows x 2 columns]

In [17]:
# группируем по первому уровню индекса
print_groups(mi.groupby(level=0))

accel
             interval  reading
sensor axis                   
accel  Z            0      0.0
       Y            0      0.5
       X            0      1.0
       Z            1      0.1
       Y            1      0.4
orientation
                  interval  reading
sensor      axis                   
orientation Z            0      0.0
            Y            0      0.1
            X            0      0.0
            Z            1      0.0
            Y            1      0.2


In [18]:
# группируем по нескольким уровням индекса
print_groups(mi.groupby(level = ['sensor', 'axis']))

('accel', 'X')
             interval  reading
sensor axis                   
accel  X            0      1.0
       X            1      0.9
       X            2      0.8
       X            3      0.7
('accel', 'Y')
             interval  reading
sensor axis                   
accel  Y            0      0.5
       Y            1      0.4
       Y            2      0.3
       Y            3      0.2
('accel', 'Z')
             interval  reading
sensor axis                   
accel  Z            0      0.0
       Z            1      0.1
       Z            2      0.2
       Z            3      0.3
('orientation', 'X')
                  interval  reading
sensor      axis                   
orientation X            0      0.0
            X            1      0.1
            X            2      0.2
            X            3      0.3
('orientation', 'Y')
                  interval  reading
sensor      axis                   
orientation Y            0      0.1
            Y            1     

__ПРИМЕНЕНИЕ АГРЕГИРУЮЩИХ ФУНКЦИЙ, ПРЕОБРАЗОВАНИЙ И ФИЛЬТРОВ__

__Применение агрегирующих функций к группам__

In [19]:
# Агрегирующие функции можно применить к каждой группе с помощью метода .aggregate() | .agg()
# Вычисляем среднее для каждого сенсора / оси
sensor_axis_grouping = mi.groupby(level = ['sensor', 'axis'])
sensor_axis_grouping.agg(np.mean)

                  interval  reading
sensor      axis                   
accel       X          1.5     0.85
            Y          1.5     0.35
            Z          1.5     0.15
orientation X          1.5     0.15
            Y          1.5     0.25
            Z          1.5     0.00

In [21]:
# вместо индекса, совпадающего с индексом исходного объекта, создаем числовой индекс и переносим уровни исходного 
# индекса в столбц
sensor_data.groupby(['sensor', 'axis'], as_index = False).agg(np.mean)

        sensor axis  interval  reading
0        accel    X       1.5     0.85
1        accel    Y       1.5     0.35
2        accel    Z       1.5     0.15
3  orientation    X       1.5     0.15
4  orientation    Y       1.5     0.25
5  orientation    Z       1.5     0.00

In [22]:
# можно просто применить агрегирующую функцию к группе
sensor_axis_grouping.mean()

                  interval  reading
sensor      axis                   
accel       X          1.5     0.85
            Y          1.5     0.35
            Z          1.5     0.15
orientation X          1.5     0.15
            Y          1.5     0.25
            Z          1.5     0.00

In [23]:
# применяем сразу несколько агрегирующих функций
sensor_axis_grouping.agg([np.sum, np.std])

                 interval           reading          
                      sum       std     sum       std
sensor      axis                                     
accel       X           6  1.290994     3.4  0.129099
            Y           6  1.290994     1.4  0.129099
            Z           6  1.290994     0.6  0.129099
orientation X           6  1.290994     0.6  0.129099
            Y           6  1.290994     1.0  0.129099
            Z           6  1.290994     0.0  0.000000

In [24]:
# применяем к каждому столбцу свою функцию 
sensor_axis_grouping.agg({'interval': len,
                          'reading': np.mean})

                  interval  reading
sensor      axis                   
accel       X            4     0.85
            Y            4     0.35
            Z            4     0.15
orientation X            4     0.15
            Y            4     0.25
            Z            4     0.00

In [25]:
# вычисляем среднее только для столбца reading
sensor_axis_grouping['reading'].mean()

sensor       axis
accel        X       0.85
             Y       0.35
             Z       0.15
orientation  X       0.15
             Y       0.25
             Z       0.00
Name: reading, dtype: float64

__Преобразование групп данных__

In [26]:
# метод .transform() применяет ту или иную функцию ко всем значениям объекта DataFrame в каждой группе

# создаем объект DataFrame который будем использовать в примерах
transform_data = pd.DataFrame({'Label': ['A', 'C', 'B', 'A', 'C'],
                               'Values': [0, 1, 2, 3, 4],
                               'Values2': [5, 6, 7, 8, 9],
                               'Other': ['foo', 'bar', 'baz', 'fiz', 'buz']},
                              index = list('VWXYZ'))
transform_data

  Label  Values  Values2 Other
V     A       0        5   foo
W     C       1        6   bar
X     B       2        7   baz
Y     A       3        8   fiz
Z     C       4        9   buz