# Python для анализа данных</a>

Перед изучением убедитесь, что вы достаточно хорошо ознакомились с первой частью  материала про pandas.

## Операции в pandas

In [1]:
import numpy as np
import pandas as pd
import scipy.stats as sps

### 1. Простые операции

Сгенерируем случайные числа и представим их в виде `DataFrame`.

In [2]:
df = pd.DataFrame(sps.norm.rvs(size=(10, 4)), 
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,-0.937761,-0.043002,1.059186,-0.301191
1,-2.077134,-0.448813,0.627117,0.433447
2,0.180545,-1.009869,1.389335,0.938949
3,-1.026814,2.025074,0.648498,-0.657575
4,-0.561789,-1.283364,-2.23553,-1.975059
5,2.236295,-1.189814,-1.846404,0.736118
6,-0.492721,0.571955,0.739657,0.837589
7,0.895866,0.201745,0.184,-0.593839
8,-0.16844,0.794753,-0.769462,-0.56027
9,0.896787,1.975541,1.022595,1.29869


Выведем описательные статистики по столбцам &mdash; количество значений, среднее, стандартное отклонение (корень из дисперсии), минимум, квантили, максимум.

In [3]:
df.describe()

Unnamed: 0,A,B,C,D
count,10.0,10.0,10.0,10.0
mean,-0.105517,0.159421,0.081899,0.015686
std,1.218563,1.203458,1.265982,1.004854
min,-2.077134,-1.283364,-2.23553,-1.975059
25%,-0.843768,-0.869605,-0.531096,-0.585446
50%,-0.33058,0.079372,0.637807,0.066128
75%,0.717036,0.739054,0.951861,0.812221
max,2.236295,2.025074,1.389335,1.29869


Среднее по столбцам

In [4]:
df.mean()

A   -0.105517
B    0.159421
C    0.081899
D    0.015686
dtype: float64

Оценка матрицы корреляций значений в столбцах

In [5]:
df

Unnamed: 0,A,B,C,D
0,-0.937761,-0.043002,1.059186,-0.301191
1,-2.077134,-0.448813,0.627117,0.433447
2,0.180545,-1.009869,1.389335,0.938949
3,-1.026814,2.025074,0.648498,-0.657575
4,-0.561789,-1.283364,-2.23553,-1.975059
5,2.236295,-1.189814,-1.846404,0.736118
6,-0.492721,0.571955,0.739657,0.837589
7,0.895866,0.201745,0.184,-0.593839
8,-0.16844,0.794753,-0.769462,-0.56027
9,0.896787,1.975541,1.022595,1.29869


In [6]:
df.corr()

Unnamed: 0,A,B,C,D
A,1.0,-0.11547,-0.334962,0.300669
B,-0.11547,1.0,0.46582,0.151789
C,-0.334962,0.46582,1.0,0.536596
D,0.300669,0.151789,0.536596,1.0


Применение функции к данным.
Для примера посчитаем разброс значений &mdash; разница максимума и минимума.

In [7]:
df.apply(lambda x: x.max() - x.min())

A    4.313429
B    3.308438
C    3.624865
D    3.273749
dtype: float64

In [None]:
df['A'].apply(lambda x: x**2)

0    1.682207
1    0.500626
2    0.003372
3    0.201276
4    1.582335
5    4.166647
6    1.065261
7    0.292919
8    0.109117
9    4.064016
Name: A, dtype: float64

### 2. Объединение таблиц

#### 2.1 Функция `df.append`

Добавление строк в виде таблицы `other` в таблицу `df`. При наличии у новых строк колонок, которых нет в таблице, они добавляются в таблицу.

`df.append(other, ignore_index=False, verify_integrity=False, sort=None)`

* `df` &mdash; таблица;
* `other` &mdash; добавляемые строки в виде таблицы;
* `ignore_index` &mdash; сохранить индексы или определить и как $0, ..., n-1$;
* `verify_integrity` &mdash; если `True`, то создает исключение в случае повторения индексов;
* `sort` &mdash;  сортировать ли колонки, если они (или их порядок) различаются.

---------------

Создадим новую таблицу из первых четырех строк таблицы `df`. В новую таблицу добавим колонку `flag`, в которую запишем условие, что число в столбце D положительно. Затем добавим строки из новой таблицы к старой. Полученная таблица содержит пропуски, которые отмечены как `NaN`.

In [None]:
other = df[:4].copy()  # Полное копирование
other['flag'] = other['D'] > 0
other['D'] = other['D'] ** 2
# UNION ALL
df.append(other, ignore_index=True, sort=False)

Unnamed: 0,A,B,C,D,flag
0,-1.448529,0.495135,1.310543,-0.211015,
1,1.63011,1.287414,0.504544,-2.25084,
2,0.085394,0.153043,-1.041278,0.461875,
3,1.328561,0.545028,-1.581073,0.001354,
4,0.820264,-0.987972,-0.961831,0.215407,
5,-1.066655,-0.497935,1.639355,0.523983,
6,-0.964547,-0.576665,-0.147818,-0.188209,
7,1.174438,-0.10287,-1.304212,0.11403,
8,1.110361,0.120519,0.415745,-1.465957,
9,-1.159033,-0.071619,0.358032,-1.206173,


### 2.2 Функция `pd.concat`

Соединение таблиц вдоль выбранной оси

`pd.concat(objs, axis=0, join='outer', ignore_index=False, copy=True, ...)`

* `objs` &mdash; объединяемые таблицы;
* `axis` : {`0` или `'index'`, `1` или `'columns'`} &mdash; ось индексов или ось колонок, иными словами соединение по вертикали или по горизонтали;
* `join` : {`'inner'`, `'outer'`} &mdash; тип объединения &mdash; пересечение или объединение индексов/колонок;
* `ignore_index` &mdash; сохранить индексы или определить и как $0, ..., n-1$;
* `copy` &mdash; копировать данные или нет.

------------

Простой пример соединения таблиц:

In [None]:
pd.concat([df, other], axis=0, join='inner')

Unnamed: 0,A,B,C,D
0,1.684643,0.447849,0.003976,0.300581
1,1.395356,-0.570322,1.023856,-1.138976
2,1.553115,0.156715,-0.651587,0.708951
3,0.817369,-0.29782,-0.257312,-0.890755
4,0.343183,-0.933661,0.231065,0.051244
5,-0.095594,0.056244,0.290135,-0.42711
6,-2.531388,-0.023979,-1.142616,1.421967
7,-0.897972,-0.698284,1.860623,1.912958
8,-0.466041,-0.4648,-0.542045,-1.839175
9,-0.85832,1.143391,1.226566,-0.576229


In [None]:
pd.concat([df, other], axis=1, join='inner')

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,flag
0,1.684643,0.447849,0.003976,0.300581,1.684643,0.447849,0.003976,0.090349,True
1,1.395356,-0.570322,1.023856,-1.138976,1.395356,-0.570322,1.023856,1.297267,False
2,1.553115,0.156715,-0.651587,0.708951,1.553115,0.156715,-0.651587,0.502611,True
3,0.817369,-0.29782,-0.257312,-0.890755,0.817369,-0.29782,-0.257312,0.793444,False


### 2.3 Функции `pd.merge` и `df.join`

Слияние таблиц по вертикали путем выполнения операций слияния баз данных в стиле SQL.

`pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, suffixes=('_x', '_y'), ...)`

* `left` и `right` &mdash; объединяемые таблицы.
* `how` &mdash; тип объединения:
    * `left` &mdash; только по ключам из левой таблицы == *SQL left outer join*;
    * `right` &mdash; только по ключам из правой таблицы == *SQL right outer join*;
    * `outer` &mdash; по объединению ключей == *SQL full outer join*;
    * `inner` &mdash; по пересечению ключей == *SQL inner join*.
* `on` &mdash; имя (или имена) колонок, по которым будет производиться объединение (т.е. ключи). Если их несколько, то нужно передать список имен. Имена колонок в таблице должны совпадать.
* `left_on` и `right_on` &mdash; аналогично `on` для случая, когда в таблицах различаются имена колонок, соответствующие ключам.
* `left_index` и `right_index` &mdash; использовать ли индексы в качестве ключей.
* `suffixes` &mdash; суффиксы, которые будут добавлены к тем колонкам, имена которых повторяются.

*Пример.* Опция `how=left, left_on='A', right_on='B'` соответствует взятию всех строк из таблицы `left`, а из таблицы `right` берутся те строки, в которых значения в колонке `A` таблицы `left` совпадает со значением колонки `B` таблицы `right`. Если в одной из таблиц таких значений несколько, то строки другой таблицы дублируются. Если в таблице `right` каких-то значений нет, то в результирующей таблице будут пропуски.

`df.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)`

* `df` &mdash; основная таблица. В качестве ключей используется индекс.
* `other` &mdash; другая таблица.
* `on` &mdash; колонка(-и) в `other`, соответствующая ключам, по ним происходит объедиенение. Если `None`, то используется индекс.
* `how` &mdash; тип объединения (см. `pd.merge`).
* `lsuffix` и `rsuffix` &mdash; суффиксы, которые будут добавлены к тем колонкам, имена которых повторяются.

------------------

##### Пример 1.

В обеих таблицах ключи повторяются

In [8]:
import pandas as pd

In [9]:
left = pd.DataFrame({'key': ['A', 'A'], 
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'A'], 
                      'rval': [4, 5]})

In [10]:
left

Unnamed: 0,key,lval
0,A,1
1,A,2


In [11]:
right

Unnamed: 0,key,rval
0,A,4
1,A,5


В результате объединения получаем 4 строки &mdash; для каждой строки из левой таблице есть две строки из правой таблицы с таким же ключом.

In [12]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,A,1,5
2,A,2,4
3,A,2,5


###### Пример 2.

В таблицах ключи не повторяются

In [15]:
left = pd.DataFrame({'key': ['A', 'B'], 
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'B'], 
                      'rval': [4, 5]})

In [16]:
left

Unnamed: 0,key,lval
0,A,1
1,B,2


In [17]:
right

Unnamed: 0,key,rval
0,A,4
1,B,5


В результате объединения получаем 2 строки &mdash; для каждой строки из левой таблице есть только одна строка из правой таблицы с таким же ключом.

In [18]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,B,2,5


###### Пример 3.

Посмотрим на различные типы объединения. Сооздадим и напечатаем две таблицы.

In [19]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'], 
                     'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'], 
                      'value': range(4, 8)})

In [20]:
left

Unnamed: 0,lkey,value
0,A,0
1,B,1
2,C,2
3,A,3


In [21]:
right

Unnamed: 0,rkey,value
0,A,4
1,B,5
2,D,6
3,B,7


In [22]:
right.dtypes

rkey     object
value     int64
dtype: object

**Внешнее слияние** &mdash; используются ключи из объединения списков ключей. Иначе говоря, используются ключи, которые есть хотя бы в одной из таблиц. Если в другой таблице таких ключей нет, то ставятся пропуски.

In [23]:
pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='outer')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4.0
1,A,3.0,A,4.0
2,B,1.0,B,5.0
3,B,1.0,B,7.0
4,C,2.0,,
5,,,D,6.0


In [None]:
pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='outer').dtypes

lkey        object
value_x    float64
rkey        object
value_y    float64
dtype: object

In [None]:
pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='outer')['value_x'].values

array([ 0.,  3.,  1.,  1.,  2., nan])

In [None]:
import numpy as np

In [None]:
type(np.nan)

float

**Внутреннее слияние** &mdash; используются ключи из пересечения списков ключей. Иначе говоря, используются ключи, которые присутствуют в обеих таблицах.

In [None]:
pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='inner')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4
1,A,3,A,4
2,B,1,B,5
3,B,1,B,7


**Объединение по ключам левой таблицы.** Не используются ключи, которые есть в правой таблицы, но которых нет в левой. Если в правой таблице каких-то ключей нет, то ставятся пропуски.

In [None]:
pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='left')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4.0
1,B,1,B,5.0
2,B,1,B,7.0
3,C,2,,
4,A,3,A,4.0


**Объединение по ключам правой таблицы.** Не используются ключи, которые есть в левой таблицы, но которых нет в правой. Если в левой таблице каких-то ключей нет, то ставятся пропуски.

In [None]:
pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='right')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4
1,A,3.0,A,4
2,B,1.0,B,5
3,B,1.0,B,7
4,,,D,6


Выполним внтуреннее объединение и установим ключ качестве индекса

In [None]:
pd.merge(left, right, 
         left_on='lkey', right_on='rkey', how='inner') \
        .set_index('lkey')[['value_x', 'value_y']]

Unnamed: 0_level_0,value_x,value_y
lkey,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
A,3,4
B,1,5
B,1,7


Ту же операцию можно выполнить с помощью `join`

In [None]:
left.set_index('lkey') \
    .join(right.set_index('rkey'), rsuffix='_r', how='inner')

Unnamed: 0,value,value_r
A,0,4
A,3,4
B,1,5
B,1,7


### 3. Группировка

Часто на практике необходимо вычислять среднее по каким-либо категориям или группам в данных. Группа может определяться, например, столбцом в таблице, у которого не так много значений. Мы хотели бы для каждого такого значения посчитать среднее значение другой колонки данных в этой группе.

Этапы группировки данных:

* разбиение данных на группы по некоторым критериям;
* применение функции отдельно к каждой группе;
* комбинирование результата в структуру данных.

Группировка выполняется функцией

`df.groupby(by=None, axis=0, level=None, sort=True, ...)`

* `df` &mdash; таблица, данные которой должны быть сгруппированы;
* `by` &mdash; задает принцип группировки. Чаще всего это имя столбца, по которому нужно сгруппировать. Может так же быть функцией;
* `axis` &mdash; ось (0 = группировать строки, 1 = группировать столбцы);
* `level` &mdash; если ось представлена мультииндексом, то указывает на уровень мультииндекса;
* `sort` &mdash; сортировка результата по индексу.

Результатом группировки является объект, состоящий из пар (имя группы, подтаблица). Имя группы соответствует значению, по которому произведена группировка. К объекту-результату группировки применимы, например, следующие операции:

* `for name, group in groupped: ... ` &mdash; цикл по группам;
* `get_group(name)` &mdash; получить таблицу, соответствующую группе с именем `name`;
* `groups` &mdash; получить все группы в виде словаря имя-подтаблица;
* `count()` &mdash; количество значений в группах, исключая пропуски;
* `size()` &mdash; размер групп;
* `sum()`, `max()`, `min()`;
* `mean()`, `median()`, `var()`, `std()`, `corr()`, `quantile(q)`;
* `describe()` &mdash; вывод описательных статистик;
* `aggregate(func)` &mdash; применение функции (или списка функций) `func` к группам.
---------

Создадим таблицу для примера

In [24]:
df = pd.DataFrame({
    'Животное' : ['Котик', 'Песик', 'Котик', 'Песик',
                  'Котик', 'Песик', 'Котик', 'Песик'],
    'Цвет шерсти' : ['белый', 'белый', 'коричневый', 'черный',
                     'коричневый', 'коричневый', 'белый', 'черный'],
    'Рост' : sps.gamma(a=12, scale=3).rvs(size=8),
    'Длина хвостика' : sps.gamma(a=10).rvs(size=8)
})

df

Unnamed: 0,Животное,Цвет шерсти,Рост,Длина хвостика
0,Котик,белый,21.410315,9.588546
1,Песик,белый,38.837275,6.369588
2,Котик,коричневый,27.872166,4.656039
3,Песик,черный,25.715628,10.734877
4,Котик,коричневый,24.852753,11.669654
5,Песик,коричневый,39.259818,11.40606
6,Котик,белый,30.585126,7.386733
7,Песик,черный,43.638956,6.034415


##### Пример 1.

Если все котики встанут друг на друга, то какой их суммарный рост? А у песиков? А какова суммарная длина хвостиков у котиков и у песиков?

Группировка по одной колонке и последующее применение операции суммирования:

In [27]:
df.groupby('Животное').sum()

Unnamed: 0_level_0,Цвет шерсти,Рост,Длина хвостика
Животное,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Котик,белыйкоричневыйкоричневыйбелый,104.720361,33.300973
Песик,белыйчерныйкоричневыйчерный,147.451677,34.544941


Посчитаем описательные статистики для каждого животного

In [28]:
df.groupby('Животное').describe()

Unnamed: 0_level_0,Рост,Рост,Рост,Рост,Рост,Рост,Рост,Рост,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Животное,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Котик,4.0,26.18009,3.948841,21.410315,23.992144,26.36246,28.550406,30.585126,4.0,8.325243,3.00693,4.656039,6.704059,8.48764,10.108823,11.669654
Песик,4.0,36.862919,7.742092,25.715628,35.556863,39.048547,40.354603,43.638956,4.0,8.636235,2.827448,6.034415,6.285795,8.552233,10.902673,11.40606


In [None]:
des = df.groupby('Животное').describe()
des.columns

MultiIndex([(          'Рост', 'count'),
            (          'Рост',  'mean'),
            (          'Рост',   'std'),
            (          'Рост',   'min'),
            (          'Рост',   '25%'),
            (          'Рост',   '50%'),
            (          'Рост',   '75%'),
            (          'Рост',   'max'),
            ('Длина хвостика', 'count'),
            ('Длина хвостика',  'mean'),
            ('Длина хвостика',   'std'),
            ('Длина хвостика',   'min'),
            ('Длина хвостика',   '25%'),
            ('Длина хвостика',   '50%'),
            ('Длина хвостика',   '75%'),
            ('Длина хвостика',   'max')],
           )

##### Пример 2.

Теперь предположим, что котики и песики встают только на представителей своего вида и своего цвета шерсти. Что тогда будет?

Группировка по двум колонкам и последующее применение операции суммирования

In [29]:
df.groupby(['Животное', 'Цвет шерсти'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000273C6C33040>

In [31]:
df.groupby(['Животное', 'Цвет шерсти']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Рост,Длина хвостика
Животное,Цвет шерсти,Unnamed: 2_level_1,Unnamed: 3_level_1
Котик,белый,25.997721,8.48764
Котик,коричневый,26.36246,8.162847
Песик,белый,38.837275,6.369588
Песик,коричневый,39.259818,11.40606
Песик,черный,34.677292,8.384646


Полученная таблица имеет *мультииндекс*

In [None]:
df.groupby(['Животное', 'Цвет шерсти']).sum().index

MultiIndex([('Котик',      'белый'),
            ('Котик', 'коричневый'),
            ('Песик',      'белый'),
            ('Песик', 'коричневый'),
            ('Песик',     'черный')],
           names=['Животное', 'Цвет шерсти'])

### 4. Таблицы сопряженности (Crosstab) и сводные таблицы (Pivot table)

**Задача.** В медицинской клинике информацию о приемах записывают в таблицу со следующими полями:
* время приема,
* врач,
* пациент,
* поставленный диагноз,
* назначение,
* другие поля.

Требуется посчитать, сколько раз за предыдущий месяц каждый врач ставил какой-либо диагноз. Результаты представить в виде таблицы, в которой посчитать также суммы по строкам и столбцам, т.е. сколько врач сделал приемов за месяц и сколько раз конкретный диагноз поставлен всеми врачами.

Как решать?

**Способ 1** 
1. Группировка по врачам.
2. Для каждого врача группировка по диагнозам.
3. В каждой группе вычисление суммы.
4. Соединение в одну таблицу.
5. Вычисление суммы по столбцам и по строкам.

Можете прикинуть количество строк кода и время работы &#128513;

**Способ 2**
1. Создать пустую таблицу.
2. Циклом &#129315; по всем записям исходной таблицы считать суммы.
3. Вычисление суммы по столбцам и по строкам.

И снова можете прикинуть количество строк кода и время работы &#128513;

**Способ 3**

Применить умную функцию из pandas, которая сделает все сама!

---------------

#### 4.1 Функция `pd.crosstab`

Эксель-подобные таблицы сопряженности

`pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)`

* `index` &mdash; значения для группировки по строкам;
* `columns` &mdash; значения для группировки по столбцам;
* `values` &mdash; аггригируемый столбец (или столбцы), его значения непосредственно определяют значения таблицы сопряженности;
* `aggfunc` &mdash; функция, которая будет применена к каждой группе значений `values`, сгруппированным по значениям`index` и `columns`. Значения этой функции и есть значения сводной таблицы;
* `rownames` и `colnames` &mdash; имена строк и столбцов таблицы сопряженности;
* `margins` &mdash; добавляет результирующий столбец/строку;
* `margins_name` &mdash; имя результирующего столбец/строку;
* `dropna` &mdash; не включать столбцы, которые состоят только из `NaN`;
* `normalize`: `boolean`, {`'all'`, `'index'`, `'columns'`} &mdash; нормировка всей таблицы (или только по строкам/столбцам).

В примере выше:

`pd.crosstab(df['Врач'], df['Диагноз'], margins=True)`

#### 4.2 Функция `pd.pivot_table`

Эксель-подобные сводные таблицы

`pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')`

* `data` &mdash; исходная таблица;
* `values` &mdash; аггригируемый столбец, его значения непосредственно определяют значения сводной таблицы;
* `index` &mdash; ключи для группировки, относятся к индексам сводной таблицы;
* `columns` &mdash; ключи для группировки, относятся к столбцам сводной таблицы;
* `aggfunc` &mdash; функция, которая будет применена к каждой группе значений `values`, сгруппированным по значениям `index` и `columns`. Значения этой функции и есть значения сводной таблицы. Если передается список функций, то сводная таблица имеет иерархические имена колонок, верхние значения которых &mdash; имена функций;
* `fill_value` &mdash; значения для замены пропусков;
* `dropna` &mdash; не включать столбцы, которые состоят только из `NaN`;
* `margins` &mdash; добавляет результирующий столбец/строку;
* `margins_name` &mdash; имя результирующего столбец/строку.

В примере выше:

`pd.pivot_table(df, index='врач', columns='диагноз', margins=True)`

-------------

#### 4.3 Примеры

Создадим таблицу для примера

In [32]:
df = pd.DataFrame({
    'Специальность' : ['Ветеринар', 'Ветеринар', 
                       'Психолог', 'Психолог'] * 6,
    'Врач' : ['Андрей', 'Сергей', 'Ирина'] * 8,
    'Диагноз' : ['Простуда', 'Простуда', 'Простуда', 
                 'Волнения', 'Волнения', 'Простуда'] * 4,
    'Доза' : sps.randint(low=1, high=6).rvs(size=24),
    'Продолжительность' : sps.randint(low=1, high=6).rvs(size=24)
})

df

Unnamed: 0,Специальность,Врач,Диагноз,Доза,Продолжительность
0,Ветеринар,Андрей,Простуда,3,2
1,Ветеринар,Сергей,Простуда,5,4
2,Психолог,Ирина,Простуда,3,5
3,Психолог,Андрей,Волнения,4,1
4,Ветеринар,Сергей,Волнения,4,2
5,Ветеринар,Ирина,Простуда,2,4
6,Психолог,Андрей,Простуда,3,4
7,Психолог,Сергей,Простуда,5,2
8,Ветеринар,Ирина,Простуда,3,2
9,Ветеринар,Андрей,Волнения,2,2


Посчитаем, сколько раз какой врач ставил каждый из диагнозов, а также суммы по строкам и столбцам

In [33]:
pd.crosstab(df['Врач'], df['Диагноз'], margins=True)

Диагноз,Волнения,Простуда,All
Врач,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Андрей,4,4,8
Ирина,0,8,8
Сергей,4,4,8
All,8,16,24


Посчитаем, какую среднюю дозу какой врач назначал по каждому из диагнозов

In [None]:
pd.crosstab(df['Врач'], df['Диагноз'], 
            values=df['Доза'], aggfunc=np.mean)

Диагноз,Волнения,Простуда
Врач,Unnamed: 1_level_1,Unnamed: 2_level_1
Андрей,2.5,3.0
Ирина,,3.25
Сергей,2.0,3.5


Простейший вариант сводной таблицы &mdash; среднее в группах, определяемых столбцом. Посчитаем средние по каждому врачу

In [None]:
pd.pivot_table(df, index=['Врач'])

Unnamed: 0_level_0,Доза,Продолжительность
Врач,Unnamed: 1_level_1,Unnamed: 2_level_1
Андрей,2.75,2.625
Ирина,3.25,2.5
Сергей,2.75,3.5


Посчитаем, сколько раз врач и в какой специальности ставил тот или иной диагноз

In [None]:
pd.pivot_table(df, 
               values='Доза', 
               index=['Специальность', 'Врач'],
               columns=['Диагноз'], 
               aggfunc=np.sum)

Unnamed: 0_level_0,Диагноз,Волнения,Простуда
Специальность,Врач,Unnamed: 2_level_1,Unnamed: 3_level_1
Ветеринар,Андрей,6.0,4.0
Ветеринар,Ирина,,15.0
Ветеринар,Сергей,4.0,7.0
Психолог,Андрей,4.0,8.0
Психолог,Ирина,,11.0
Психолог,Сергей,4.0,7.0


Добавим строчку, являющейся суммой столбцов, и столбец, являющийся суммой строк

In [None]:
pd.pivot_table(df, 
               values='Доза', 
               index=['Специальность', 'Врач'],
               columns=['Диагноз'],
               aggfunc=np.sum, 
               margins=True)

Unnamed: 0_level_0,Диагноз,Волнения,Простуда,All
Специальность,Врач,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ветеринар,Андрей,6.0,4.0,10
Ветеринар,Ирина,,15.0,15
Ветеринар,Сергей,4.0,7.0,11
Психолог,Андрей,4.0,8.0,12
Психолог,Ирина,,11.0,11
Психолог,Сергей,4.0,7.0,11
All,,18.0,52.0,70


Применим несколько функций и несколько столбцов со значениями

In [None]:
pd.pivot_table(df, 
               values=['Доза', 'Продолжительность'], 
               index=['Специальность', 'Врач'],
               columns=['Диагноз'], 
               aggfunc=[np.min, np.mean, np.max], 
               margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,amin,amin,amin,amin,amin,amin,mean,mean,mean,mean,mean,mean,amax,amax,amax,amax,amax,amax
Unnamed: 0_level_1,Unnamed: 1_level_1,Доза,Доза,Доза,Продолжительность,Продолжительность,Продолжительность,Доза,Доза,Доза,Продолжительность,Продолжительность,Продолжительность,Доза,Доза,Доза,Продолжительность,Продолжительность,Продолжительность
Unnamed: 0_level_2,Диагноз,Волнения,Простуда,All,Волнения,Простуда,All,Волнения,Простуда,All,Волнения,Простуда,All,Волнения,Простуда,All,Волнения,Простуда,All
Специальность,Врач,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3
Ветеринар,Андрей,1.0,2.0,1,1.0,1.0,1,3.0,2.0,2.5,2.5,1.5,2.0,5.0,2.0,5,4.0,2.0,4
Ветеринар,Ирина,,3.0,3,,1.0,1,,3.75,3.75,,2.0,2.0,,5.0,5,,3.0,3
Ветеринар,Сергей,2.0,2.0,2,3.0,3.0,3,2.0,3.5,2.75,3.5,4.0,3.75,2.0,5.0,5,4.0,5.0,5
Психолог,Андрей,2.0,3.0,2,3.0,1.0,1,2.0,4.0,3.0,3.5,3.0,3.25,2.0,5.0,5,4.0,5.0,5
Психолог,Ирина,,1.0,1,,1.0,1,,2.75,2.75,,3.0,3.0,,4.0,4,,5.0,5
Психолог,Сергей,1.0,2.0,1,2.0,2.0,2,2.0,3.5,2.75,3.0,3.5,3.25,3.0,5.0,5,4.0,5.0,5
All,,1.0,1.0,1,1.0,1.0,1,2.25,3.25,2.916667,3.125,2.75,2.875,5.0,5.0,5,4.0,5.0,5


При подготовке использованы материалы https://mipt-stats.gitlab.io/courses/python/10_pandas2.html