<a href="https://colab.research.google.com/github/xNIKITOSx23/python-libraries/blob/main/Lecture_6_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as sps

**1. Простые операции**



---

Сгенерируем случайные числа и представим их в виде DataFrame.

In [None]:
df = pd.DataFrame(sps.norm.rvs(size=(10,
4)), columns=['A', 'B', 'C', 'D'])
print(df)

          A         B         C         D
0 -1.198263  0.273314  1.446013  0.582618
1  1.177065 -0.211667 -0.171466 -0.202259
2 -0.272020  0.584192 -1.077280 -0.779673
3  0.749696 -0.760872  0.510665  0.277346
4 -0.824442 -0.419446  1.858877 -0.758381
5  1.198828 -0.635847  0.227931  0.298764
6  0.911322 -1.506407  0.516726  1.773032
7  2.343944 -0.007905  0.048027 -1.178589
8 -0.439632  0.150406 -0.756592  0.744921
9  1.163196  1.322936 -0.761002  1.691283


Выведем описательные статистики по столбцам — количество
значений, среднее, стандартное отклонение (корень из дисперсии), минимум,
квантили, максимум.

In [None]:
df = pd.DataFrame(sps.norm.rvs(size=(10,
4)), columns=['A', 'B', 'C', 'D'])
print(df.describe())

               A          B          C          D
count  10.000000  10.000000  10.000000  10.000000
mean   -0.086289  -0.038511   0.057679   0.140942
std     1.056483   1.156703   0.844679   1.095715
min    -2.097057  -1.374386  -1.144332  -2.147658
25%    -0.451511  -1.017775  -0.475384  -0.231275
50%     0.146404  -0.021481   0.070795   0.302663
75%     0.414934   0.472572   0.548694   0.798794
max     1.236406   2.121572   1.480648   1.662919


Среднее по столбцам

In [None]:
df = pd.DataFrame(sps.norm.rvs(size=(10,
4)),columns=['A', 'B', 'C', 'D'])
print(df.mean())

A   -0.287779
B   -0.080947
C    0.628972
D    0.507389
dtype: float64


Оценка матрицы корреляций значений в столбцах

In [None]:
df = pd.DataFrame(sps.norm.rvs(size=(10,
4)),columns=['A', 'B', 'C', 'D'])
print(df.corr())

          A         B         C         D
A  1.000000  0.364502  0.388695 -0.409203
B  0.364502  1.000000  0.182860 -0.419246
C  0.388695  0.182860  1.000000  0.084452
D -0.409203 -0.419246  0.084452  1.000000


Применение функции к данным. Для примера посчитаем разброс
значений — разница максимума и минимума.

In [None]:
df = pd.DataFrame(sps.norm.rvs(size=(10,
4)),columns=['A', 'B', 'C', 'D'])
print(df.apply(lambda x: x.max() - x.min()))

A    4.559431
B    2.867611
C    3.233859
D    3.053018
dtype: float64


**2. Объединение таблиц**

---

***2.1 Функция df.append***

Добавление строк в виде таблицы other в таблицу df. При наличии у
новых строк колонок, которых нет в таблице, они добавляются в таблицу.

df.append(other, ignore_index=False, verify_integrity=False, sort=None)

 df — таблица;

 other — добавляемые строки в виде таблицы;

 ignore_index — сохранить индексы или определить и
как 0,...,n−10,...,n−1;

 verify_integrity — если True, то создает исключение в случае
повторения индексов;

 sort — сортировать ли колонки, если они (или их порядок)
различаются.


Создадим новую таблицу из первых четырех строк таблицы df. В новую
таблицу добавим колонку flag, в которую запишем условие, что число в
столбце D положительно. Затем добавим строки из новой таблицы к старой.
Полученная таблица содержит пропуски, которые отмечены как NaN.

In [None]:
df = pd.DataFrame(sps.norm.rvs(size=(10, 4)),
                  columns=['A', 'B', 'C', 'D'])
other = df[:4].copy() # Полное копирование
other['flag'] = other['D'] > 0
other['D'] = other['D'] ** 2
df.append(other, ignore_index=True,
sort=False)
print(df)

          A         B         C         D
0  0.319950 -0.760281 -0.129213 -0.749678
1 -1.511580  0.660802 -0.062269 -2.521789
2  1.390540  0.225189 -1.431553 -0.163212
3  0.081744  0.255807  0.128472 -1.283812
4 -0.570170  0.467612  0.410646 -0.509597
5 -0.486506 -1.220052 -0.267636 -0.921766
6  0.592956  0.383825 -1.422710  0.232769
7 -2.422394 -0.083906  0.334678 -1.143415
8 -0.859249  0.369715 -0.904054 -1.728761
9 -0.219395  0.165234  1.310579  0.545180


***2.2 Функция pd.concat***


---

Соединение таблиц вдоль выбранной оси

 pd.concat(objs, axis=0, join='outer', ignore_index=False, copy=True, ...)

 objs — объединяемые таблицы;

 axis : {0 или 'index', 1 или 'columns'} — ось индексов или ось колонок,
иными словами соединение по вертикали или по горизонтали;

 join : {'inner', 'outer'} — тип объединения — пересечение или
объединение индексов/колонок;

 ignore_index — сохранить индексы или определить и
как 0,...,n−10,...,n−1;

 copy — копировать данные или нет.

In [None]:
df = pd.DataFrame(sps.norm.rvs(size=(10,
4)),columns=['A', 'B', 'C', 'D'])
print(pd.concat([df[:5], df[5:]]))

          A         B         C         D
0  1.170423  0.489750  1.260380  0.103793
1  0.642029 -0.303501  2.447516 -1.516451
2  1.444673 -1.259067 -0.348404 -1.102810
3  1.217049  1.004114  2.081510 -1.089654
4 -1.506307  0.770592  0.840365  0.701035
5  0.657917  0.257719 -0.286341  0.167577
6  0.698301  0.318435 -0.197938  0.215065
7 -0.264773  1.052031  0.889649  1.117041
8  0.675971 -1.454346  1.400327  0.035049
9  0.093168 -0.129641 -1.757828  0.545829


***2.3 Функции pd.merge и df.join***


---

Слияние таблиц по вертикали путем выполнения операций слияния баз
данных в стиле SQL.

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, suffixes=('_x', '_y'), ...)

 left и right — объединяемые таблицы.

 how — тип объединения:

 left — только по ключам из левой таблицы == SQL left outer join;

 right — только по ключам из правой таблицы == SQL right outer join;

 outer — по объединению ключей == SQL full outer join;

 inner — по пересечению ключей == SQL inner join.

 on — имя (или имена) колонок, по которым будет производиться
объединение (т.е. ключи). Если их несколько, то нужно передать
список имен. Имена колонок в таблице должны совпадать.

 left_on и right_on — аналогично on для случая, когда в таблицах
различаются имена колонок, соответствующие ключам.

 left_index и right_index — использовать ли индексы в качестве ключей.

 suffixes — суффиксы, которые будут добавлены к тем колонкам, имена
которых повторяются.

Пример. Опция how=left, left_on='A', right_on='B' соответствует взятию
всех строк из таблицы left, а из таблицы right берутся те строки, в которых
значения в колонке A таблицы left совпадает со значением
колонки B таблицы right. Если в одной из таблиц таких значений несколько,
то строки другой таблицы дублируются. 

Если в таблице right каких-то
значений нет, то в результирующей таблице будут пропуски.

df.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)

 df — основная таблица. В качестве ключей используется индекс.

 other — другая таблица.

 on — колонка(-и) в other, соответствующая ключам, по ним происходит
объедиенение. Если None, то используется индекс.

 how — тип объединения (см. pd.merge).

 lsuffix и rsuffix — суффиксы, которые будут добавлены к тем
колонкам, имена которых повторяются.

In [None]:
left = pd.DataFrame({'key': ['A', 'A'],
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A',
'A'], 'rval': [4, 5]})
print(left)

  key  lval
0   A     1
1   A     2


In [None]:
left = pd.DataFrame({'key': ['A', 'A'],'lval': [1, 2]})
right = pd.DataFrame({'key': ['A',
'A'],'rval': [4, 5]})
print(right)

  key  rval
0   A     4
1   A     5


В результате объединения получаем 4 строки — для каждой строки из
левой таблице есть две строки из правой таблицы с таким же ключом.

In [None]:
left = pd.DataFrame({'key': ['A', 'A'],'lval': [1, 2]})
right = pd.DataFrame({'key': ['A',
'A'],'rval': [4, 5]})
df=pd.merge(left, right, on='key')
print(df)

  key  lval  rval
0   A     1     4
1   A     1     5
2   A     2     4
3   A     2     5


*Пример 2.* В таблицах ключи не повторяются

In [None]:
left = pd.DataFrame({'key': ['A', 'B'],'lval': [1, 2]})
right = pd.DataFrame({'key': ['A',
'B'],'rval': [4, 5]})
print('Left')
print(left)
print('Right')
print(right)

Left
  key  lval
0   A     1
1   B     2
Right
  key  rval
0   A     4
1   B     5


В результате объединения получаем 2 строки — для каждой строки из
левой таблице есть только одна строка из правой таблицы с таким же
ключом.

In [None]:
left = pd.DataFrame({'key': ['A', 'B'],'lval': [1, 2]})
right = pd.DataFrame({'key': ['A','B'],'rval': [4, 5]})
print('Left:')
print(left)
print('\nRight:')
print(right)
df=pd.merge(left, right, on='key')
print('\nMerge:')
print(df)

Left:
  key  lval
0   A     1
1   B     2

Right:
  key  rval
0   A     4
1   B     5

Merge:
  key  lval  rval
0   A     1     4
1   B     2     5


*Пример 3. *Посмотрим на различные типы объединения. Сооздадим и
напечатаем две таблицы.

In [None]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D','B'],'value': range(4, 8)})
print('Left:')
print(left)
print('\nRight:')
print(right)

Left:
  lkey  value
0    A      0
1    B      1
2    C      2
3    A      3

Right:
  rkey  value
0    A      4
1    B      5
2    D      6
3    B      7


**Внешнее слияние** — используются ключи из объединения списков
ключей. Иначе говоря, используются ключи, которые есть хотя бы в одной из
таблиц. Если в другой таблице таких ключей нет, то ставятся пропуски.

In [None]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],'value': range(4, 8)})
print('Left:')
print(left)
print('\nRight:')
print(right)
df=pd.merge(left, right, left_on='lkey', right_on='rkey',how='outer')
print('Merge:')
print(df)

Left:
  lkey  value
0    A      0
1    B      1
2    C      2
3    A      3

Right:
  rkey  value
0    A      4
1    B      5
2    D      6
3    B      7
Merge:
  lkey  value_x rkey  value_y
0    A      0.0    A      4.0
1    A      3.0    A      4.0
2    B      1.0    B      5.0
3    B      1.0    B      7.0
4    C      2.0  NaN      NaN
5  NaN      NaN    D      6.0


**Внутреннее слияние** — используются ключи из пересечения списков
ключей. Иначе говоря, используются ключи, которые присутствуют в обеих
таблицах.

In [None]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],'value': range(4, 8)})
print('Left:')
print(left)
print('\nRight:')
print(right)
df=pd.merge(left, right,left_on='lkey', right_on='rkey',how='inner')
print('\nMerge:')
print(df)

Left:
  lkey  value
0    A      0
1    B      1
2    C      2
3    A      3

Right:
  rkey  value
0    A      4
1    B      5
2    D      6
3    B      7

Merge:
  lkey  value_x rkey  value_y
0    A        0    A        4
1    A        3    A        4
2    B        1    B        5
3    B        1    B        7


**Объединение по ключам левой таблицы.** Не используются ключи,
которые есть в правой таблицы, но которых нет в левой. Если в правой
таблице каких-то ключей нет, то ставятся пропуски.

In [None]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],'value': range(4, 8)})
print('Left:')
print(left)
print('\nRight:')
print(right)
df=pd.merge(left, right,left_on='lkey', right_on='rkey',how='left')
print('\nMerge:')
print(df)

Left:
  lkey  value
0    A      0
1    B      1
2    C      2
3    A      3

Right:
  rkey  value
0    A      4
1    B      5
2    D      6
3    B      7

Merge:
  lkey  value_x rkey  value_y
0    A        0    A      4.0
1    B        1    B      5.0
2    B        1    B      7.0
3    C        2  NaN      NaN
4    A        3    A      4.0


**Объединение по ключам правой таблицы.** Не используются ключи,
которые есть в левой таблицы, но которых нет в правой. Если в левой
таблице каких-то ключей нет, то ставятся пропуски.

In [None]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],'value': range(4, 8)})
print('Left:')
print(left)
print('\nRight:')
print(right)
df=pd.merge(left, right,left_on='lkey', right_on='rkey',how='right')
print('\nMerge:')
print(df)

Left:
  lkey  value
0    A      0
1    B      1
2    C      2
3    A      3

Right:
  rkey  value
0    A      4
1    B      5
2    D      6
3    B      7

Merge:
  lkey  value_x rkey  value_y
0    A      0.0    A        4
1    A      3.0    A        4
2    B      1.0    B        5
3  NaN      NaN    D        6
4    B      1.0    B        7


Выполним внтуреннее объединение и установим ключ качестве
индекса

In [None]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],'value': range(4, 8)})
print('Left:')
print(left)
print('\nRight:')
print(right)
df=pd.merge(left, right,left_on='lkey', right_on='rkey', how='inner').set_index('lkey')[['value_x', 'value_y']]

print('\nMerge:')
print(df)

Left:
  lkey  value
0    A      0
1    B      1
2    C      2
3    A      3

Right:
  rkey  value
0    A      4
1    B      5
2    D      6
3    B      7

Merge:
      value_x  value_y
lkey                  
A           0        4
A           3        4
B           1        5
B           1        7


Ту же операцию можно выполнить с помощью **join**

In [None]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],'value': range(4, 8)})
print('Left:')
print(left)
print('\nRight:')
print(right)
df=left.set_index('lkey').join(right.set_index('rkey'), rsuffix='_r',
how='inner')
print('\nMerge:')
print(df)

Left:
  lkey  value
0    A      0
1    B      1
2    C      2
3    A      3

Right:
  rkey  value
0    A      4
1    B      5
2    D      6
3    B      7

Merge:
   value  value_r
A      0        4
A      3        4
B      1        5
B      1        7


**3. Группировка**


---

Часто на практике необходимо вычислять среднее по каким-либо
категориям или группам в данных. Группа может определяться, например,
столбцом в таблице, у которого не так много значений. Мы хотели бы для
каждого такого значения посчитать среднее значение другой колонки данных
в этой группе.

Этапы группировки данных:

 разбиение данных на группы по некоторым критериям;

 применение функции отдельно к каждой группе;

 комбинирование результата в структуру данных.

Группировка выполняется функцией

df.groupby(by=None, axis=0, level=None, sort=True, ...)

 df — таблица, данные которой должны быть сгруппированы;

 by — задает принцип группировки. Чаще всего это имя столбца, по
которому нужно сгруппировать. Может так же быть функцией;

 axis — ось (0 = группировать строки, 1 = группировать столбцы);

 level — если ось представлена мультииндексом, то указывает на
уровень мультииндекса;

 sort — сортировка результата по индексу.

Результатом группировки является объект, состоящий из пар (имя группы,
подтаблица). Имя группы соответствует значению, по которому произведена
группировка. К объекту-результату группировки применимы, например,
следующие операции:

 for name, group in groupped: ... — цикл по группам;

 get_group(name) — получить таблицу, соответствующую группе с
именем name;

 groups — получить все группы в виде словаря имя-подтаблица;

 count() — количество значений в группах, исключая пропуски;

 size() — размер групп;

 sum(), max(), min();

 mean(), median(), var(), std(), corr(), quantile(q);

 describe() — вывод описательных статистик;

 aggregate(func) — применение функции (или списка функций) func к
группам.


---


Создадим таблицу для примера

In [None]:
df = pd.DataFrame({
    'Животное' : ['Котик', 'Песик', 'Котик', 'Песик',
                  'Котик', 'Песик', 'Котик', 'Песик'],
    'Цвет шерсти' : ['белый', 'белый', 'коричневый', 'черный', 'коричневый', 'коричневый', 'белый','черный'],
    'Рост' : sps.gamma(a=12, scale=3).rvs(size=8),
    'Длина хвостика' : sps.gamma(a=10).rvs(size=8)
})
print(df)

  Животное Цвет шерсти       Рост  Длина хвостика
0    Котик       белый  50.962317        5.612443
1    Песик       белый  30.604975        7.422474
2    Котик  коричневый  29.023222       14.454130
3    Песик      черный  17.687819       11.696695
4    Котик  коричневый  30.799915       10.865928
5    Песик  коричневый  31.269411        6.803092
6    Котик       белый  47.265132        6.129307
7    Песик      черный  33.375806        8.476669


*Пример 1*. Если все котики встанут друг на друга, то какой их
суммарный рост? А у песиков? А какова суммарная длинна хвостиков у
котиков и у песиков?
Группировка по одной колонке и последующее применение операции
суммирования:

In [None]:
df = pd.DataFrame({
    'Животное' : ['Котик', 'Песик', 'Котик', 'Песик',
                  'Котик', 'Песик', 'Котик', 'Песик'],
    'Цвет шерсти' : ['белый', 'белый', 'коричневый', 'черный', 'коричневый', 'коричневый', 'белый','черный'],
    'Рост' : sps.gamma(a=12, scale=3).rvs(size=8),
    'Длина хвостика' : sps.gamma(a=10).rvs(size=8)
})
print(df.groupby('Животное').sum())

                Рост  Длина хвостика
Животное                            
Котик     125.378471       36.504387
Песик     144.142583       44.039738


Посчитаем описательные статистики для каждого животного

In [None]:
print(df.groupby('Животное').describe())

          Рост                                                         \
         count       mean        std        min        25%        50%   
Животное                                                                
Котик      4.0  31.344618   6.824020  24.543103  25.978333  31.431091   
Песик      4.0  36.035646  10.311651  21.560951  32.561225  38.737793   

                               Длина хвостика                                 \
                75%        max          count       mean       std       min   
Животное                                                                       
Котик     36.797377  37.973185            4.0   9.126097  1.498360  6.987441   
Песик     42.212214  45.106046            4.0  11.009934  4.220637  7.007326   

                                                     
               25%        50%        75%        max  
Животное                                             
Котик     8.874593   9.513252   9.764756  10.490442  
Песик     7.54594

*Пример 2.* Теперь предположим, что котики и песики встают только на
представителей своего вида и своего цвета шерсти. Что тогда будет?
Группировка по двум колонкам и последующее применение операции
суммирования

In [None]:
print(df.groupby(['Животное', 'Цвет шерсти']).sum())

                           Рост  Длина хвостика
Животное Цвет шерсти                           
Котик    белый        50.999846       19.994086
         коричневый   74.378625       16.510301
Песик    белый        21.560951       14.450668
         коричневый   36.227983       14.856258
         черный       86.353649       14.732812


In [None]:
print(df.groupby(['Животное', 'Цвет шерсти']).sum().index)

MultiIndex([('Котик',      'белый'),
            ('Котик', 'коричневый'),
            ('Песик',      'белый'),
            ('Песик', 'коричневый'),
            ('Песик',     'черный')],
           names=['Животное', 'Цвет шерсти'])


**4. Таблицы сопряженности (Crosstab) и сводные таблицы (Pivot table)**


---
**Задача.** 
В медицинской клинике информацию о приемах записывают в
таблицу со следующими полями:

 время приема,

 врач,

 пациент,

 поставленный диагноз,

 назначение,

 другие поля.

Требуется посчитать, сколько раз за предыдущий месяц каждый врач
ставил какой-либо диагноз. Результаты представить в виде таблицы, в
которой посчитать также суммы по строкам и столбцам, т.е. сколько врач
сделал приемов за месяц и сколько раз конкретный диагноз поставлен всеми
врачами.

Как решать?

**Способ 1**
1. Группировка по врачам.
2. Для каждого врача группировка по диагнозам.
3. В каждой группе вычисление суммы.
4. Соединение в одну таблицу.
5. Вычисление суммы по столбцам и по строкам.
Можете прикинуть количество строк кода и время работы
**Способ 2**
1. Создать пустую таблицу.
2. Циклом по всем записям исходной таблицы считать суммы.
3. Вычисление суммы по столбцам и по строкам.
И снова можете прикинуть количество строк кода и время работы
**Способ 3**

Применить умную функцию из pandas, которая сделает все сама!


In [None]:
df=pd.crosstab(df['Врач'], df['Диагноз'],margins=True)

**4.2 Функция pd.pivot_table**

In [None]:
df = pd.DataFrame({
'Специальность' : ['Ветеринар', 'Ветеринар','Психолог', 'Психолог'] * 6,
'Врач' : ['Андрей', 'Сергей', 'Ирина'] * 8,
'Диагноз' : ['Простуда', 'Простуда', 'Простуда',
'Волнения', 'Волнения', 'Простуда'] * 4,
'Доза' : sps.randint(low=1, high=6).rvs(size=24),
'Продолжительность' : sps.randint(low=1,high=6).rvs(size=24)})
print(df)

   Специальность    Врач   Диагноз  Доза  Продолжительность
0      Ветеринар  Андрей  Простуда     4                  1
1      Ветеринар  Сергей  Простуда     2                  3
2       Психолог   Ирина  Простуда     3                  4
3       Психолог  Андрей  Волнения     1                  3
4      Ветеринар  Сергей  Волнения     3                  2
5      Ветеринар   Ирина  Простуда     1                  1
6       Психолог  Андрей  Простуда     3                  3
7       Психолог  Сергей  Простуда     5                  5
8      Ветеринар   Ирина  Простуда     2                  4
9      Ветеринар  Андрей  Волнения     5                  5
10      Психолог  Сергей  Волнения     5                  4
11      Психолог   Ирина  Простуда     4                  1
12     Ветеринар  Андрей  Простуда     3                  4
13     Ветеринар  Сергей  Простуда     4                  2
14      Психолог   Ирина  Простуда     3                  5
15      Психолог  Андрей  Волнения     3

Посчитаем, сколько раз какой врач ставил каждый из диагнозов, а
также суммы по строкам и столбцам

In [None]:
res=pd.crosstab(df['Врач'], df['Диагноз'], margins=True)
print(res)

Диагноз  Волнения  Простуда  All
Врач                            
Андрей          4         4    8
Ирина           0         8    8
Сергей          4         4    8
All             8        16   24


Посчитаем, какую среднюю дозу какой врач назначал по каждому из
диагнозов

In [None]:
res=pd.crosstab(df['Врач'], df['Диагноз'],values=df['Доза'], aggfunc=np.mean)
print(res)

Диагноз  Волнения  Простуда
Врач                       
Андрей       3.50     3.750
Ирина         NaN     2.875
Сергей       3.25     3.250


Простейший вариант сводной таблицы — среднее в группах,
определяемых столбцом. Посчитаем средние по каждому врачу

In [None]:
res=pd.pivot_table(df, index=['Врач'])
print(res)

         Доза  Продолжительность
Врач                            
Андрей  3.625              3.000
Ирина   2.875              3.250
Сергей  3.250              3.625


Посчитаем, сколько раз врач и в какой специальности ставил тот или
иной диагноз

In [None]:
res=pd.pivot_table(df,
  values='Доза',
  index=['Специальность', 'Врач'],
  columns=['Диагноз'],
  aggfunc=np.sum)
print(res)

Диагноз               Волнения  Простуда
Специальность Врач                      
Ветеринар     Андрей      10.0       7.0
              Ирина        NaN      12.0
              Сергей       5.0       6.0
Психолог      Андрей       4.0       8.0
              Ирина        NaN      11.0
              Сергей       8.0       7.0


Добавим строчку, являющейся суммой столбцов, и столбец,
являющийся суммой строк

In [None]:
res=pd.pivot_table(df,
  values='Доза',
  index=['Специальность', 'Врач'],
  columns=['Диагноз'],
  aggfunc=np.sum,
  margins=True)
print(res)

Диагноз               Волнения  Простуда  All
Специальность Врач                           
Ветеринар     Андрей      10.0       7.0   17
              Ирина        NaN      12.0   12
              Сергей       5.0       6.0   11
Психолог      Андрей       4.0       8.0   12
              Ирина        NaN      11.0   11
              Сергей       8.0       7.0   15
All                       27.0      51.0   78


Применим несколько функций и несколько столбцов со значениями

In [None]:
res=pd.pivot_table(df,
  values=['Доза', 'Продолжительность'],
  index=['Специальность', 'Врач'],
  columns=['Диагноз'],
  aggfunc=[np.min, np.mean, np.max],
  margins=True)
print(res)

                         amin                                              \
                         Доза              Продолжительность                
Диагноз              Волнения Простуда All          Волнения Простуда All   
Специальность Врач                                                          
Ветеринар     Андрей      5.0      3.0   3               1.0      1.0   1   
              Ирина       NaN      1.0   1               NaN      1.0   1   
              Сергей      2.0      2.0   2               2.0      2.0   2   
Психолог      Андрей      1.0      3.0   1               2.0      3.0   2   
              Ирина       NaN      1.0   1               NaN      1.0   1   
              Сергей      3.0      2.0   2               4.0      3.0   3   
All                       1.0      1.0   1               1.0      1.0   1   

                         mean                                            \
                         Доза                Продолжительность            
Ди