# Пакет `pandas`: сводные таблицы

---

**Источники:**

[Сводные таблицы в Python](http://datareview.info/article/svodnyie-tablitsyi-v-python/)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

pip 20.3.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
# !conda install pandas -y

In [3]:
import pandas as pd

pd.__version__

'1.2.3'

## Загрузка данных

Для примера возьмем [данные (dataset) Gapminder World](https://www.kaggle.com/tklimonova/gapminder-datacamp-2007).

In [4]:
df = pd.read_csv('./../../data/gapminder_full.csv')

# показать все колонки
pd.options.display.max_columns = None

# отобразить первые 5 и последние 5 строк
df

Unnamed: 0,country,year,population,continent,life_exp,gdp_cap
0,Afghanistan,1952,8425333,Asia,28.801,779.445314
1,Afghanistan,1957,9240934,Asia,30.332,820.853030
2,Afghanistan,1962,10267083,Asia,31.997,853.100710
3,Afghanistan,1967,11537966,Asia,34.020,836.197138
4,Afghanistan,1972,13079460,Asia,36.088,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,1987,9216418,Africa,62.351,706.157306
1700,Zimbabwe,1992,10704340,Africa,60.377,693.420786
1701,Zimbabwe,1997,11404948,Africa,46.809,792.449960
1702,Zimbabwe,2002,11926563,Africa,39.989,672.038623


In [5]:
# показать первые 5 строк
df.head()

Unnamed: 0,country,year,population,continent,life_exp,gdp_cap
0,Afghanistan,1952,8425333,Asia,28.801,779.445314
1,Afghanistan,1957,9240934,Asia,30.332,820.85303
2,Afghanistan,1962,10267083,Asia,31.997,853.10071
3,Afghanistan,1967,11537966,Asia,34.02,836.197138
4,Afghanistan,1972,13079460,Asia,36.088,739.981106


## Что такое сводная таблица?

**Сводная таблица (англ. Pivot table)** — инструмент обработки данных, служащий для их обобщения.


*Термин "сводная таблица" может быть знаком из `Microsoft Excel` или любым иным, предназначенным для обработки и анализа данных. 


В `pandas` сводные таблицы строятся через метод `DataFrame.pivot_table`.

In [6]:
# сумма населения по году и континенту
pvt = df.pivot_table(index='year', 
                     columns='continent',
                     values='population',
                     aggfunc='sum')
pvt

continent,Africa,Americas,Asia,Europe,Oceania
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,237640501,345152446,1395357351,418120846,10686006
1957,264837738,386953916,1562780599,437890351,11941976
1962,296516865,433270254,1696357182,460355155,13283518
1967,335289489,480746623,1905662900,481178958,14600414
1972,379879541,529384210,2150972248,500635059,16106100
1977,433061021,578067699,2384513556,517164531,17239000
1982,499348587,630290920,2610135582,531266901,18394850
1987,574834110,682753971,2871220762,543094160,19574415
1992,659081517,739274104,3133292191,558142797,20919651
1997,743832984,796900410,3383285500,568944148,22241430


In [7]:
# максимальное значение ожидаемой продолжительности жизни по континенту и году
pvt = df.pivot_table(index='year', 
                     columns='continent',
                     values='life_exp',
                     aggfunc='max')
pvt

continent,Africa,Americas,Asia,Europe,Oceania
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,52.724,68.75,65.39,72.67,69.39
1957,58.089,69.96,67.84,73.47,70.33
1962,60.246,71.3,69.39,73.68,71.24
1967,61.557,72.13,71.43,74.16,71.52
1972,64.274,72.88,73.42,74.72,71.93
1977,67.064,74.21,75.38,76.11,73.49
1982,69.885,75.76,77.11,76.99,74.74
1987,71.913,76.86,78.67,77.41,76.32
1992,73.615,77.95,79.36,78.77,77.56
1997,74.772,78.61,80.69,79.39,78.83


In [8]:
# минимальное значение ожидаемой продолжительности жизни по континенту и году
pvt = df.pivot_table(index='year', 
                     columns='continent',
                     values='life_exp',
                     aggfunc='min')
pvt

continent,Africa,Americas,Asia,Europe,Oceania
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1952,30.0,37.579,28.801,43.585,69.12
1957,31.57,40.696,30.332,48.079,70.26
1962,32.767,43.428,31.997,52.098,70.93
1967,34.113,45.032,34.02,54.336,71.1
1972,35.4,46.714,36.088,57.005,71.89
1977,36.788,49.923,31.22,59.507,72.22
1982,38.445,51.461,39.854,61.036,73.84
1987,39.906,53.636,40.822,63.108,74.32
1992,23.599,55.089,41.674,66.146,76.33
1997,36.087,56.671,41.763,68.835,77.55


In [9]:
type(pvt)

pandas.core.frame.DataFrame

## Многоуровневые сводные таблицы

Точно так же, как при использовании `groupby`, группирование в сводной таблице может иметь несколько уровней и задаваться посредством различных параметров.

In [10]:
# разделить годы на интервалы
year = pd.cut(df['year'], [df.year.min(), 1970, 1990, 2010])

year

0                    NaN
1       (1952.0, 1970.0]
2       (1952.0, 1970.0]
3       (1952.0, 1970.0]
4       (1970.0, 1990.0]
              ...       
1699    (1970.0, 1990.0]
1700    (1990.0, 2010.0]
1701    (1990.0, 2010.0]
1702    (1990.0, 2010.0]
1703    (1990.0, 2010.0]
Name: year, Length: 1704, dtype: category
Categories (3, interval[int64]): [(1952, 1970] < (1970, 1990] < (1990, 2010]]

In [11]:
# максимальное значение ожидаемой продолжительности жизни по континенту и году (интервал)
pvt = df.pivot_table(index=year, 
                     columns='continent',
                     values='life_exp',
                     aggfunc='max')
pvt

continent,Africa,Americas,Asia,Europe,Oceania
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"(1952, 1970]",61.557,72.13,71.43,74.16,71.52
"(1970, 1990]",71.913,76.86,78.67,77.41,76.32
"(1990, 2010]",76.442,80.653,82.603,81.757,81.235


In [12]:
# разделить население на интервалы
population = pd.cut(df['population'], 
                    [df.population.min(), 
                     df.population.mean(), 
                     df.population.max()])

population

0       (60011.0, 29601212.325]
1       (60011.0, 29601212.325]
2       (60011.0, 29601212.325]
3       (60011.0, 29601212.325]
4       (60011.0, 29601212.325]
                 ...           
1699    (60011.0, 29601212.325]
1700    (60011.0, 29601212.325]
1701    (60011.0, 29601212.325]
1702    (60011.0, 29601212.325]
1703    (60011.0, 29601212.325]
Name: population, Length: 1704, dtype: category
Categories (2, interval[float64]): [(60011.0, 29601212.325] < (29601212.325, 1318683096.0]]

In [13]:
# максимальное значение ожидаемой продолжительности жизни по континенту, году (интервал) и населенности (интервал)
pvt = df.pivot_table(index=year, 
                     columns=[population, 'continent'],
                     values='life_exp',
                     aggfunc='max')
pvt

population,"(60011.0, 29601212.325]","(60011.0, 29601212.325]","(60011.0, 29601212.325]","(60011.0, 29601212.325]","(60011.0, 29601212.325]","(29601212.325, 1318683096.0]","(29601212.325, 1318683096.0]","(29601212.325, 1318683096.0]","(29601212.325, 1318683096.0]"
continent,Africa,Americas,Asia,Europe,Oceania,Africa,Americas,Asia,Europe
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
"(1952, 1970]",61.557,72.13,70.75,74.16,71.52,49.293,70.76,71.43,71.55
"(1970, 1990]",71.913,76.86,76.2,77.41,76.32,60.834,75.02,78.67,76.9
"(1990, 2010]",76.442,78.782,82.208,81.757,81.235,72.301,80.653,82.603,80.941


In [14]:
# добавить информацию о стоимости билета (квантили)
# q количество квантилей
gdp_cap = pd.qcut(df['gdp_cap'], q=5)

gdp_cap

0       (241.165, 975.74]
1       (241.165, 975.74]
2       (241.165, 975.74]
3       (241.165, 975.74]
4       (241.165, 975.74]
              ...        
1699    (241.165, 975.74]
1700    (241.165, 975.74]
1701    (241.165, 975.74]
1702    (241.165, 975.74]
1703    (241.165, 975.74]
Name: gdp_cap, Length: 1704, dtype: category
Categories (5, interval[float64]): [(241.165, 975.74] < (975.74, 2278.059] < (2278.059, 5151.645] < (5151.645, 11407.491] < (11407.491, 113523.133]]

In [15]:
# среднее значение ожидаемой продолжительности жизни по континенту, году (интервал) и населенности (интервал)
pvt = df.pivot_table(index=[year, 'continent'], 
                     columns=[population, gdp_cap],
                     values='life_exp',
                     aggfunc='mean')
pvt

Unnamed: 0_level_0,population,"(60011.0, 29601212.325]","(60011.0, 29601212.325]","(60011.0, 29601212.325]","(60011.0, 29601212.325]","(60011.0, 29601212.325]","(29601212.325, 1318683096.0]","(29601212.325, 1318683096.0]","(29601212.325, 1318683096.0]","(29601212.325, 1318683096.0]","(29601212.325, 1318683096.0]"
Unnamed: 0_level_1,gdp_cap,"(241.165, 975.74]","(975.74, 2278.059]","(2278.059, 5151.645]","(5151.645, 11407.491]","(11407.491, 113523.133]","(241.165, 975.74]","(975.74, 2278.059]","(2278.059, 5151.645]","(5151.645, 11407.491]","(11407.491, 113523.133]"
year,continent,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
"(1952, 1970]",Africa,40.924413,43.971932,47.582273,45.534714,50.227,,41.87375,,,
"(1952, 1970]",Americas,,49.827909,55.973971,64.589529,71.13,,,56.0142,60.11,70.153333
"(1952, 1970]",Asia,40.5215,54.169417,56.528308,59.426917,56.2025,45.477849,56.78775,65.5,70.08,
"(1952, 1970]",Europe,,58.5058,64.944357,69.297108,72.689333,,,57.698,69.586364,70.954
"(1952, 1970]",Oceania,,,,70.33,71.01,,,,,
"(1970, 1990]",Africa,46.341447,50.067814,55.993659,58.714222,58.306857,45.8035,46.2368,56.374,59.4975,
"(1970, 1990]",Americas,,52.5386,60.621813,68.290744,73.632667,,,63.636,65.6375,73.5975
"(1970, 1990]",Asia,44.806333,55.225615,64.31565,67.649143,67.698077,55.833955,57.822714,63.366833,62.9654,72.4564
"(1970, 1990]",Europe,,,69.7725,70.594682,73.515774,,,60.164,71.376,74.108632
"(1970, 1990]",Oceania,,,,,73.59375,,,,,


В результате получили четырехмерную агрегацию, демонстрирующую взаимосвязь между соответствующими величинами.

## Дополнительные параметры сводной таблицы

Полная [сигнатура метода `pivot_table`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html) объекта `DataFrame` является следующей:

```
pandas.pivot_table(values=None, 
                   index=None, 
                   columns=None, 
                   aggfunc='mean', 
                   fill_value=None, 
                   margins=False, 
                   dropna=True, 
                   margins_name='All', 
                   observed=False)
```


Параметры **`fill_value`** и **`dropna`** задают способ обработки отсутствующих данных. 

Параметр **`aggfunc`** задает тип агрегации. По умолчанию его значение равно `mean`. Как и в случае `groupby`, тип агрегации можно задать либо с помощью предопределенной строки (например, `sum`, `mean`, `count`, `min`, `max` и др.), либо посредством функции, реализующей агрегацию (например, `np.sum()`, `min()`, `sum()` и др.).

Кроме того, параметр **`aggfunc`** может быть задан в виде словаря, *отображающего* столбцы на любые из желаемых значений, перечисленных выше:

In [16]:
# в данном случае не задается параметр values, 
# так как values задается автоматически, 
# когда параметр aggfunc представлен в виде отображения
df.pivot_table(index='year', 
               columns="continent", 
               aggfunc={'life_exp': "max", 
                        'population': "mean"})

Unnamed: 0_level_0,life_exp,life_exp,life_exp,life_exp,life_exp,population,population,population,population,population
continent,Africa,Americas,Asia,Europe,Oceania,Africa,Americas,Asia,Europe,Oceania
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1952,52.724,68.75,65.39,72.67,69.39,4570010.0,13806097.84,42283560.0,13937360.0,5343003.0
1957,58.089,69.96,67.84,73.47,70.33,5093033.0,15478156.64,47356990.0,14596350.0,5970988.0
1962,60.246,71.3,69.39,73.68,71.24,5702247.0,17330810.16,51404760.0,15345170.0,6641759.0
1967,61.557,72.13,71.43,74.16,71.52,6447875.0,19229864.92,57747360.0,16039300.0,7300207.0
1972,64.274,72.88,73.42,74.72,71.93,7305376.0,21175368.4,65180980.0,16687840.0,8053050.0
1977,67.064,74.21,75.38,76.11,73.49,8328097.0,23122707.96,72257990.0,17238820.0,8619500.0
1982,69.885,75.76,77.11,76.99,74.74,9602857.0,25211636.8,79095020.0,17708900.0,9197425.0
1987,71.913,76.86,78.67,77.41,76.32,11054500.0,27310158.84,87006690.0,18103140.0,9787207.5
1992,73.615,77.95,79.36,78.77,77.56,12674640.0,29570964.16,94948250.0,18604760.0,10459825.5
1997,74.772,78.61,80.69,79.39,78.83,14304480.0,31876016.4,102523800.0,18964800.0,11120715.0


С помощью параметра **`margins`** можно вычислить обобщенные значения по каждой группе.

In [17]:
# минимальное значение ожидаемой продолжительности жизни по континенту и году
df.pivot_table(index='year', 
               columns='continent',
               values='life_exp',
               aggfunc='min',
               margins=True)

continent,Africa,Americas,Asia,Europe,Oceania,All
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1952,30.0,37.579,28.801,43.585,69.12,28.801
1957,31.57,40.696,30.332,48.079,70.26,30.332
1962,32.767,43.428,31.997,52.098,70.93,31.997
1967,34.113,45.032,34.02,54.336,71.1,34.02
1972,35.4,46.714,36.088,57.005,71.89,35.4
1977,36.788,49.923,31.22,59.507,72.22,31.22
1982,38.445,51.461,39.854,61.036,73.84,38.445
1987,39.906,53.636,40.822,63.108,74.32,39.906
1992,23.599,55.089,41.674,66.146,76.33,23.599
1997,36.087,56.671,41.763,68.835,77.55,36.087
