# Исследуем загруженные данные

Представим, что мы анализируем продажи американского интернет-магазина. У нас есть данные о заказах и клиентах. Загрузим файл с продажами интернет-магазина в переменную orders. Раз загружаем заказы, укажем, что колонка id пойдет в индекс:

In [177]:
import pandas as pd

In [178]:
url_csv = 'https://raw.githubusercontent.com/iaidarf/DS_tutorials/main/notebooks/data/orders.csv'
orders = pd.read_csv(url_csv, index_col='id')

.shape показывает, сколько в датафрейме строк и колонок. Он возвращает пару значений (n_rows, n_columns). Сначала идут строки, потом колонки.

In [179]:
orders.shape

(5009, 4)

В датафрейме 5009 строк и 5 колонок.

С помощью .columns узнаем названия колонок:

In [180]:
orders.columns

Index(['order_date', 'ship_mode', 'customer_id', 'sales'], dtype='object')

Видим, что в таблице есть дата заказа, метод доставки, номер клиента и выручка.

С помощью .dtypes узнаем типы данных, находящихся в каждой колонке и поймем, надо ли их обрабатывать. Бывает, что числа загружаются в виде текста. Если мы попробуем сложить две текстовых значения '1' + '1', то получим не число 2, а строку '11':

In [8]:
orders.dtypes

order_date      object
ship_mode       object
customer_id     object
sales          float64
dtype: object

Тип object — это текст, float64 — это дробное число

C помощью атрибута .index посмотрим, как называются строки:

In [9]:
orders.index

Int64Index([100006, 100090, 100293, 100328, 100363, 100391, 100678, 100706,
            100762, 100860,
            ...
            167570, 167920, 168116, 168613, 168690, 168802, 169320, 169488,
            169502, 169551],
           dtype='int64', name='id', length=5009)

Ожидаемо, в индексе датафрейма номера заказов: 100762, 100860 и так далее.

В колонке sales хранится стоимость каждого проданного товара. Чтобы узнать разброс значений, среднюю стоимость и медиану, используем метод .describe():

In [10]:
orders.describe()

Unnamed: 0,sales
count,5009.0
mean,458.614666
std,954.730953
min,0.556
25%,37.63
50%,151.96
75%,512.064
max,23661.228


Наконец, чтобы посмотреть на несколько примеров записей датафрейма, используем команды .head() и .sample(). Первая возвращает записи из начала датафрейма. Вторая — случайные записи:

In [11]:
orders.head()

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100006,2014-09-07,Standard,DK-13375,377.97
100090,2014-07-08,Standard,EB-13705,699.192
100293,2014-03-14,Standard,NF-18475,91.056
100328,2014-01-28,Standard,JC-15340,3.928
100363,2014-04-08,Standard,JM-15655,21.376


In [14]:
orders.sample(5)

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
129462,2017-06-16,Second,JE-15745,740.59
131926,2014-06-01,Second,DW-13480,3745.63
160276,2014-04-02,Standard,AH-10690,177.68
107832,2017-11-23,Second,FH-14275,7.476
112214,2015-08-05,Standard,AH-10690,72.65


# Получаем данные из датафреймов

Данные из датафреймов можно получать по-разному: указав номера колонок и строк, использовав условные операторы или язык запросов. Рассмотрим каждый способ.

## Указываем нужные строки и колонки


Продолжаем анализировать продажи интернет-магазина, которые загрузили в предыдущем разделе. Допустим, нужно вывести столбец sales. Для этого название столбца нужно заключить в квадратные скобки и поставить после них названия датафрейма: orders['sales']:

In [15]:
orders['sales']

id
100006     377.970
100090     699.192
100293      91.056
100328       3.928
100363      21.376
            ...   
168802      18.368
169320     171.430
169488      56.860
169502     113.410
169551    1344.838
Name: sales, Length: 5009, dtype: float64

Если нужно вывести несколько столбцов, в квадратные скобки нужно вставить список с их названиями: orders[['customer_id', 'sales']]. Будьте внимательны: квадратные скобки стали двойными. Первые — от датафрейма, вторые — от списка:

In [16]:
orders[['customer_id', 'sales']]

Unnamed: 0_level_0,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1
100006,DK-13375,377.970
100090,EB-13705,699.192
100293,NF-18475,91.056
100328,JC-15340,3.928
100363,JM-15655,21.376
...,...,...
168802,JO-15145,18.368
169320,LH-16900,171.430
169488,AA-10375,56.860
169502,MG-17650,113.410


In [18]:
# или так
orders.sales

id
100006     377.970
100090     699.192
100293      91.056
100328       3.928
100363      21.376
            ...   
168802      18.368
169320     171.430
169488      56.860
169502     113.410
169551    1344.838
Name: sales, Length: 5009, dtype: float64

Перейдем к строкам. Их можно фильтровать по индексу и по порядку. Например, мы хотим вывести только заказы 100363, 100391 и 100706, для этого есть команда .loc[]:

In [24]:
show_these_orders = [100363, 100391, 100706]
orders.loc[show_these_orders]

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100363,2014-04-08,Standard,JM-15655,21.376
100391,2014-05-25,Standard,BW-11065,14.62
100706,2014-12-16,Second,LE-16810,129.44


А в другой раз бывает нужно достать просто заказы с 1 по 3 по порядку, вне зависимости от их номеров в таблицемы. Тогда используют команду .iloc[]:

In [26]:
show_these_orders = [0, 1, 2]
orders.iloc[show_these_orders]

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100006,2014-09-07,Standard,DK-13375,377.97
100090,2014-07-08,Standard,EB-13705,699.192
100293,2014-03-14,Standard,NF-18475,91.056


Можно фильтровать датафреймы по колонкам и столбцам одновременно:

In [29]:
columns = ['customer_id', 'sales']
rows = [100363, 100391, 100706]
orders.loc[rows][columns]

Unnamed: 0_level_0,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1
100363,JM-15655,21.376
100391,BW-11065,14.62
100706,LE-16810,129.44


## Условные операторы

Задача: нужно узнать, откуда приходят самые большие заказы. Начнем с того, что достанем все покупки стоимостью более 1000 долларов:

In [32]:
# Проходит по каждому элементу серии и, если условие выполняется, возвращает True. Если не выполняется — False.
filter_large = orders['sales'] > 1000


In [33]:
# Если элемент filter_large равен True, заказ отобразится, если False — нет.
orders.loc[filter_large]

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101931,2014-10-28,First,TS-21370,1252.602
102673,2014-11-01,Standard,KH-16630,1044.440
102988,2014-04-05,Second,GM-14695,4251.920
103100,2014-12-20,First,AB-10105,1107.660
103310,2014-05-10,Standard,GM-14680,1769.784
...,...,...,...,...
167318,2017-07-26,Standard,GZ-14545,2012.302
167402,2017-01-13,Second,CP-12085,4619.330
167920,2017-12-09,Second,JL-15835,1827.510
168116,2017-11-04,Same Day,GT-14635,8167.420


Интересно, сколько дорогих заказов было доставлено первым классом? Добавим в фильтр ещё одно условие:

In [35]:
filter_large = orders['sales'] > 1000
filter_first_class = orders['ship_mode'] == 'First'
orders.loc[filter_large & filter_first_class]

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101931,2014-10-28,First,TS-21370,1252.602
103100,2014-12-20,First,AB-10105,1107.660
106726,2014-12-06,First,RS-19765,1261.330
112158,2014-12-02,First,DP-13165,1050.600
116666,2014-05-08,First,KT-16480,1799.970
...,...,...,...,...
147886,2017-03-28,First,DH-13075,1435.960
155425,2017-11-10,First,AB-10600,1475.054
162558,2017-10-02,First,Dp-13240,2437.672
165456,2017-11-30,First,TB-21625,1079.316


## Язык запросов


Еще один способ решить предыдущую задачу — использовать язык запросов. Все условия пишем одной строкой 'sales > 1000 & ship_mode == 'First' и передаем ее в метод .query(). Запрос получается компактнее.

In [38]:
orders.query('sales > 1000 & ship_mode == "First"')

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101931,2014-10-28,First,TS-21370,1252.602
103100,2014-12-20,First,AB-10105,1107.660
106726,2014-12-06,First,RS-19765,1261.330
112158,2014-12-02,First,DP-13165,1050.600
116666,2014-05-08,First,KT-16480,1799.970
...,...,...,...,...
147886,2017-03-28,First,DH-13075,1435.960
155425,2017-11-10,First,AB-10600,1475.054
162558,2017-10-02,First,Dp-13240,2437.672
165456,2017-11-30,First,TB-21625,1079.316


Значения для фильтров можно сохранить в переменной, а в запросе сослаться на нее с помощью символа @: sales > @sales_filter.

In [39]:
sales_filter = 1000
ship_mode_filter = 'First'
orders.query('sales > @sales_filter & ship_mode > @ship_mode_filter')

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
102673,2014-11-01,Standard,KH-16630,1044.440
102988,2014-04-05,Second,GM-14695,4251.920
103310,2014-05-10,Standard,GM-14680,1769.784
103492,2014-10-10,Standard,CM-12715,1488.774
103660,2014-08-25,Standard,MW-18220,1007.944
...,...,...,...,...
166688,2017-05-20,Standard,RD-19480,1196.316
167318,2017-07-26,Standard,GZ-14545,2012.302
167402,2017-01-13,Second,CP-12085,4619.330
167920,2017-12-09,Second,JL-15835,1827.510


Разобравшись, как получать куски данных из датафрейма, перейдем к тому, как считать агрегированные метрики: количество заказов, суммарную выручку, средний чек, конверсию.

# Считаем производные метрики


Задача: посчитаем, сколько денег магазин заработал с помощью каждого класса доставки. Начнем с простого — просуммируем выручку со всех заказов. Для этого используем метод .sum():

In [40]:
orders['sales'].sum()

2297200.8603000003

Добавим класс доставки. Перед суммированием сгруппируем данные с помощью метода .groupby():

In [41]:
orders.groupby('ship_mode')['sales'].sum()

ship_mode
First       3.514284e+05
Same Day    1.283631e+05
Second      4.591936e+05
Standard    1.358216e+06
Name: sales, dtype: float64

Можем сказать Pandas, чтобы округлял значения до сотых:

In [42]:
pd.options.display.float_format = '{:,.1f}'.format
orders.groupby('ship_mode')['sales'].sum()

ship_mode
First        351,428.4
Same Day     128,363.1
Second       459,193.6
Standard   1,358,215.7
Name: sales, dtype: float64

Добавим разбивку по датам заказа:


In [43]:
orders.groupby(['ship_mode', 'order_date'])['sales'].sum()

ship_mode  order_date
First      2014-01-06      12.8
           2014-01-11       9.9
           2014-01-14      62.0
           2014-01-15     149.9
           2014-01-19     378.6
                          ...  
Standard   2017-12-25   1,338.3
           2017-12-26      63.9
           2017-12-28     589.6
           2017-12-29   1,094.8
           2017-12-30     713.8
Name: sales, Length: 2498, dtype: float64

Видно, что выручка прыгает ото дня ко дню: иногда 10 долларов, а иногда 378. Интересно, это меняется количество заказов или средний чек? Добавим к выборке количество заказов. Для этого вместо .sum() используем метод .agg(), в который передадим список с названиями нужных функций.

In [44]:
orders.groupby(['ship_mode', 'order_date'])['sales'].agg(['sum', 'count'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,count
ship_mode,order_date,Unnamed: 2_level_1,Unnamed: 3_level_1
First,2014-01-06,12.8,1
First,2014-01-11,9.9,1
First,2014-01-14,62.0,1
First,2014-01-15,149.9,1
First,2014-01-19,378.6,1
...,...,...,...
Standard,2017-12-25,1338.3,7
Standard,2017-12-26,63.9,3
Standard,2017-12-28,589.6,7
Standard,2017-12-29,1094.8,4


Получается, что это так прыгает средний чек. Интересно, а какой был самый удачный день? Чтобы узнать, отсортируем получившийся датафрейм: выведем 10 самых денежных дней по выручке:

In [45]:
orders.groupby(['ship_mode', 'order_date'])['sales'].agg(['sum']).sort_values(by='sum', ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum
ship_mode,order_date,Unnamed: 2_level_1
Standard,2014-03-18,26908.4
Standard,2016-10-02,18398.2
First,2017-03-23,14299.1
Standard,2014-09-08,14060.4
First,2017-10-22,13716.5
Standard,2016-12-17,12185.1
Standard,2017-11-17,12112.5
Standard,2015-09-17,11467.6
Standard,2016-05-23,10561.0
Standard,2014-09-23,10478.6


Команда разрослась, и её теперь неудобно читать. Чтобы упростить, можно разбить её на несколько строк. В конце каждой строки ставим обратный слеш \:

In [46]:
orders \
    .groupby(['ship_mode', 'order_date'])['sales'] \
    .agg(['sum']) \
    .sort_values(by='sum', ascending=False) \
    .head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,sum
ship_mode,order_date,Unnamed: 2_level_1
Standard,2014-03-18,26908.4
Standard,2016-10-02,18398.2
First,2017-03-23,14299.1
Standard,2014-09-08,14060.4
First,2017-10-22,13716.5
Standard,2016-12-17,12185.1
Standard,2017-11-17,12112.5
Standard,2015-09-17,11467.6
Standard,2016-05-23,10561.0
Standard,2014-09-23,10478.6


В самый удачный день — 18 марта 2014 года — магазин заработал 27 тысяч долларов с помощью стандартного класса доставки. Интересно, откуда были клиенты, сделавшие эти заказы? Чтобы узнать, надо объединить данные о заказах с данными о клиентах.

## Объединяем несколько датафреймов

До сих пор мы смотрели только на таблицу с заказами. Но ведь у нас есть еще данные о клиентах интернет-магазина. Загрузим их в переменную customers и посмотрим, что они собой представляют:

In [48]:
url_cust = 'https://raw.githubusercontent.com/iaidarf/DS_tutorials/main/notebooks/data/customers.csv'
customers = pd.read_csv(url_cust, index_col='id')
customers.head()

Unnamed: 0_level_0,name,segment,state,city
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CG-12520,Claire Gute,Consumer,Kentucky,Henderson
DV-13045,Darrin Van Huff,Corporate,California,Los Angeles
SO-20335,Sean O'Donnell,Consumer,Florida,Fort Lauderdale
BH-11710,Brosina Hoffman,Consumer,California,Los Angeles
AA-10480,Andrew Allen,Consumer,North Carolina,Concord


Мы знаем тип клиента, место его проживания, его имя и имя контактного лица. У каждого клиента есть уникальный номер id. Этот же номер лежит в колонке customer_id таблицы orders. Значит мы можем найти, какие заказы сделал каждый клиент. Например, посмотрим, заказы пользователя CG-12520:

In [49]:
cust_filter = 'CG-12520'
orders.query('customer_id == @cust_filter')

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
152156,2016-11-08,Second,CG-12520,993.9
164098,2017-01-26,First,CG-12520,18.2
123918,2015-10-15,Same Day,CG-12520,136.7


Вернемся к задаче из предыдущего раздела: узнать, что за клиенты, которые сделали 18 марта заказы со стандартной доставкой. Для этого объединим таблицы с клиентами и заказами. Датафреймы объединяют с помощью методов .concat(), .merge() и .join(). Все они делают одно и то же, но отличаются синтаксисом — на практике достаточно уметь пользоваться одним из них. На примере .merge():

В .merge() указываем названия датафреймов для объединения. Затем - способ объединения и какие колонки использовать в качестве ключа.
Ключ — это колонка, связывающая оба датафрейма. В нашем случае — номер клиента. В таблице с заказами он в колонке customer_id, а таблице с клиентами — в индексе. Поэтому в команде мы пишем: left_on='customer_id', right_index=True.

In [51]:
new_df = pd.merge(orders, customers, how='inner', left_on='customer_id', right_index=True)
new_df.columns

Index(['order_date', 'ship_mode', 'customer_id', 'sales', 'name', 'segment',
       'state', 'city'],
      dtype='object')

### Задачи

#### Найти 5 городов, принесших самую большую выручку в 2016 году.

Для начала отфильтруем заказы из 2016 года:

In [80]:
orders_2016 = orders.query('order_date>="2016-01-01" & order_date<="2016-12-31"')
orders_2016.head()

Unnamed: 0_level_0,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
100041,2016-11-20,Standard,BF-10975,328.5
100083,2016-11-24,Standard,CD-11980,24.8
100153,2016-12-13,Standard,KH-16630,63.9
100244,2016-09-20,Standard,GM-14695,475.7
100300,2016-06-24,Second,MJ-17740,4823.1


Город — это атрибут пользователей, а не заказов. Добавим информацию о пользователях:

In [81]:
with_customers_2016 = pd.merge(customers, orders_2016, how='inner', left_index=True, right_on='customer_id') 

Cруппируем получившийся датафрейм по городам и посчитаем выручку:

In [82]:
grouped_2016 = with_customers_2016.groupby('city')['sales'].sum()
grouped_2016.head()

city
Akron               1,763.0
Albuquerque           692.9
Amarillo              197.2
Arlington           5,672.1
Arlington Heights      14.1
Name: sales, dtype: float64

Отсортируем по убыванию продаж и оставим топ-5:

In [83]:
top5 = grouped_2016.sort_values(ascending=False).head()
top5

city
New York City   53,094.1
Philadelphia    39,895.5
Seattle         33,955.5
Los Angeles     33,611.1
San Francisco   27,990.0
Name: sales, dtype: float64

#### Сколько заказов, отправлено первым классом за последние 5 лет?

Посотрим дату самого последнего заказа

In [183]:
orders['order_date'].sort_values(ascending = False).head()

id
156720    2017-12-30
143259    2017-12-30
115427    2017-12-30
126221    2017-12-30
158526    2017-12-29
Name: order_date, dtype: object

А самый первый заказ?

In [185]:
orders['order_date'].sort_values(ascending = True).head()

id
103800    2014-01-03
112326    2014-01-04
141817    2014-01-05
167199    2014-01-06
106054    2014-01-06
Name: order_date, dtype: object

Последняя запись датируется 30-12-2017, значит нам нужен период 2013-01-01 по 2017-12-30
Но первая запись от 2014-01-03.
Значит получим кол-во заказов не за 5 лет, а за 4 года.

In [186]:
orders.query('order_date >= "2014-01-01" & order_date < "2017-12-30" & ship_mode == "First"').count()

order_date     787
ship_mode      787
customer_id    787
sales          787
dtype: int64

За последние 4 года первым классом отправлено 787 заказов

#### Сколько в базе клиентов из Калифорнии?

In [111]:
cust_from_California = customers.query('state == "California"')
cust_from_California

Unnamed: 0_level_0,name,segment,state,city
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
DV-13045,Darrin Van Huff,Corporate,California,Los Angeles
BH-11710,Brosina Hoffman,Consumer,California,Los Angeles
ZD-21925,Zuschuss Donatelli,Consumer,California,San Francisco
EH-13945,Eric Hoffmann,Consumer,California,Los Angeles
RA-19885,Ruben Ausman,Corporate,California,Los Angeles
...,...,...,...,...
DO-13645,Doug O'Connell,Consumer,California,Los Angeles
AO-10810,Anthony O'Donnell,Corporate,California,Los Angeles
VP-21760,Victoria Pisteka,Corporate,California,San Francisco
IM-15055,Ionia McGrath,Consumer,California,Roseville


In [112]:
cust_from_California.count()

name       161
segment    161
state      161
city       161
dtype: int64

В базе 161 клиент из Калифорнии

#### Сколько заказов они сделали?

In [115]:
orders_from_California = pd.merge(orders, cust_from_California, how = 'inner', left_on='customer_id', right_index=True)
orders_from_California.count()

order_date     1006
ship_mode      1006
customer_id    1006
sales          1006
name           1006
segment        1006
state          1006
city           1006
dtype: int64

Они сделали 1006 заказов

#### Постройте сводную таблицу средних чеков по всем штатам за каждый год.

In [173]:
with_customers = pd.merge(customers, orders, how='inner', left_index=True, right_on='customer_id') 
with_customers.head()

Unnamed: 0_level_0,name,segment,state,city,order_date,ship_mode,customer_id,sales
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
152156,Claire Gute,Consumer,Kentucky,Henderson,2016-11-08,Second,CG-12520,993.9
164098,Claire Gute,Consumer,Kentucky,Henderson,2017-01-26,First,CG-12520,18.2
123918,Claire Gute,Consumer,Kentucky,Henderson,2015-10-15,Same Day,CG-12520,136.7
106656,Darrin Van Huff,Corporate,California,Los Angeles,2016-09-23,First,DV-13045,23.0
138688,Darrin Van Huff,Corporate,California,Los Angeles,2016-06-12,Second,DV-13045,14.6


Добавим новый столбец, который будет содержать только значение года

In [187]:
with_customers['year'] = with_customers['order_date'].apply(lambda x: x[:4])
with_customers.head()

Unnamed: 0_level_0,name,segment,state,city,order_date,ship_mode,customer_id,sales,year
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
152156,Claire Gute,Consumer,Kentucky,Henderson,2016-11-08,Second,CG-12520,993.9,2016
164098,Claire Gute,Consumer,Kentucky,Henderson,2017-01-26,First,CG-12520,18.2,2017
123918,Claire Gute,Consumer,Kentucky,Henderson,2015-10-15,Same Day,CG-12520,136.7,2015
106656,Darrin Van Huff,Corporate,California,Los Angeles,2016-09-23,First,DV-13045,23.0,2016
138688,Darrin Van Huff,Corporate,California,Los Angeles,2016-06-12,Second,DV-13045,14.6,2016


Для формирования сводной таблицы в Pandas есть метод pivot_table, который принимает в качестве параметров:
values – список переменных, по которым требуется рассчитать нужные статистики,
index – список переменных, по которым нужно сгруппировать данные,
aggfunc — то, что нам, собственно, нужно посчитать по группам — сумму, среднее, максимум, минимум или что-то ещё.

In [189]:
with_customers.pivot_table(
    ['sales'],
    ['state'], ['year'],
    aggfunc = 'mean'
).head()

Unnamed: 0_level_0,sales,sales,sales,sales
year,2014,2015,2016,2017
state,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Alabama,425.5,501.4,854.3,418.0
Arizona,475.2,703.3,699.1,535.7
Arkansas,1098.0,55.8,103.1,214.8
California,563.7,404.2,426.4,422.2
Colorado,351.1,433.3,540.7,365.6
