# Аггрегирование значений

У Pandas есть возможность аггрегировать значеия по какому либо из значений других колонок

Что является очень полезной функцией для выявления закономерностей и общей статистики

Аггрегирование в основном происходит по категорийным переменным

Процесс аггрегирования происходит с использованием специального метода которому передается наименование колонки по значениям которого следует производить аггрегацию далее указанных значений

Структура
`df.groupby(column_name.str).column_name.agg_funct()`

Где
- df - DataFrame
- groupby - инструкция процесса аггрегации
- column_name.str - наименованое колонки по значениям которой будет производится аггрегация тип данных string
- column_name - наименование колонки над значениями которой будет производится действие функции аггрегации
- agg_funct - функция аггрегации

При использовании функции аггрегации данный метод возвращает набор данных, после использования данного метода рекомендуется использовать метод переназначения индексов reset_index()

Если требуется указать несколько наименований колонок для аггрегации то методу groupby передается список состоящий из строковых данных наименований колонок

## Методы агрегации

- mean() - вычисляется среднее значение
- max() - максимальное значение
- min() - минимальное значение
- count() - производит подсчет кол-ва данных в каждом значении параметра аггрегации

Для того чтобы отработать практику работы с функцией аггрегации был создан набор данных *./files/orders.csv*

In [2]:
import pandas as pd

orders = pd.read_csv('./files/orders.csv')

print(orders.head())

      id first_name last_name                       email  shoe_type  \
0  97916    Douglas     Perez    DouglasPerez28@gmail.com  stilettos   
1  67691    Tiffany   O'neill  TiffanyO'neill51@gmail.com     wedges   
2  72818      Susan     Rivas       Susan.Rivas@gmail.com    sandals   
3  28080     Angela    Hopper  AngelaHopper62@outlook.com  stilettos   
4  89958     Thomas  Benjamin     TBenjamin1981@gmail.com    sandals   

  shoe_material shoe_color  price  
0        fabric      brown     90  
1       leather       navy     94  
2  faux-leather      white     96  
3       leather        red     96  
4  faux-leather       navy     97  


In [5]:
# у нас есть категорийная переменная которая содержит наименования цветов shoe_color
# будем работать с ней

# рассчитаем среднюю/максимальную/минимальную/кол-во обуви каждого цвета
mean_price_color = orders.groupby('shoe_color').price.mean().reset_index()
max_price_color = orders.groupby('shoe_color').price.max().reset_index()
min_price_color = orders.groupby('shoe_color').price.min().reset_index()
count_price_color = orders.groupby('shoe_color').price.count().reset_index()
# максимальное значение

print(mean_price_color)
print(max_price_color)
print(min_price_color)
print(count_price_color)

  shoe_color       price
0      black  307.538462
1      brown  313.437500
2       navy  295.150943
3        red  265.021277
4      white  277.666667
  shoe_color  price
0      black    498
1      brown    498
2       navy    484
3        red    457
4      white    492
  shoe_color  price
0      black    107
1      brown     90
2       navy     94
3        red     96
4      white     96
  shoe_color  price
0      black     13
1      brown     48
2       navy     53
3        red     47
4      white     39


## Pivot Tables

Пивотные таблицы это результат метода позволяющего развернуть таблицу указав индексом и наименования столбцов требуемые

Структура:
`df.pivot(columns = column_name, index = column_name, values = column_name)`

In [6]:
# Создадим набор данных который будет равен результатом аггрегации по кол-ву типа обучи и его цвета

type_color_count = orders.groupby(['shoe_type','shoe_color']).id.count().reset_index()

print(type_color_count)
# получилось слишком много повторяющихся значений попробуем преобразовать результат в пивотную таблицу

       shoe_type shoe_color  id
0   ballet flats      black   2
1   ballet flats      brown  11
2   ballet flats       navy  17
3   ballet flats        red  13
4   ballet flats      white   7
5        sandals      black   3
6        sandals      brown  10
7        sandals       navy  13
8        sandals        red  14
9        sandals      white  10
10     stilettos      black   8
11     stilettos      brown  14
12     stilettos       navy   7
13     stilettos        red  16
14     stilettos      white   5
15        wedges      brown  13
16        wedges       navy  16
17        wedges        red   4
18        wedges      white  17


In [8]:
type_color_count_pivot = type_color_count.pivot(
    index='shoe_type',
    columns='shoe_color',
    values='id'
).reset_index()

print(type_color_count_pivot)

shoe_color     shoe_type  black  brown  navy   red  white
0           ballet flats    2.0   11.0  17.0  13.0    7.0
1                sandals    3.0   10.0  13.0  14.0   10.0
2              stilettos    8.0   14.0   7.0  16.0    5.0
3                 wedges    NaN   13.0  16.0   4.0   17.0
