# Pandas

## Series

**Series (1D)** – это проиндексированный одномерный массив значений. Он похож на простой словарь типа dict, где имя элемента соответствует ключу, а значение – значению записи.

Объект Series можно создать с помощью конструктора Series, принимающего список значений и (дополнительно) список ключей. Если список ключей не указан, ключами станут индексы исходного массива.

In [1]:
import pandas as pd
import numpy as np

In [2]:
s = pd.Series(np.random.randn(5)) # Генерация списка из 5 случайных значений
s

0   -0.700862
1   -0.548212
2    0.744591
3    0.027711
4   -0.737785
dtype: float64

In [3]:
s = pd.Series(np.random.randn(5), # Генерация списка из 5 случайных значений
              index=['a', 'b', 'c', 'd', 'e']) # Список ключей
s

a    0.986135
b    0.424450
c   -0.418775
d    0.387304
e    1.884534
dtype: float64

Также можно создать такой объект из словаря: 

In [4]:
s_new = pd.Series({'a' : -1, 'g' : 3})
s_new

a   -1
g    3
dtype: int64

Добавить в Series элемент можно, присвоив новое значение по ключу (как в словаре). Изменить значение можно так же:

In [5]:
s['f'] = 2 # Добавление новой пары ключ-значение
s['a'] = -10 # Изменение значения для старого ключа
s

a   -10.000000
b     0.424450
c    -0.418775
d     0.387304
e     1.884534
f     2.000000
dtype: float64

Удалить элемент можно с помощью метода **drop**, который принимает как параметры массив с ключами, которые нужно удалить. Метод **drop** по умолчанию не является inplace-методом -- создавая и возвращая новую табличку без указанного элемента, он не меняет старую.

In [6]:
s.drop(['d', 'b'])
s

a   -10.000000
b     0.424450
c    -0.418775
d     0.387304
e     1.884534
f     2.000000
dtype: float64

Чтобы метод **drop** изменил исходную табличку, необходимо прописать атрибут **inplace=True**. Вот так:

In [7]:
s.drop(['d', 'b'], inplace=True)
s

a   -10.000000
c    -0.418775
e     1.884534
f     2.000000
dtype: float64

Списки Series можно объединять с помощью метода **append**:

In [8]:
s = s.append(s_new)
s

a   -10.000000
c    -0.418775
e     1.884534
f     2.000000
a    -1.000000
g     3.000000
dtype: float64

Как можно заметить, в списке Series ключи не обязательно различны. При попытке изменить значение для ключа, встречающегося в списке неоднократно, меняется значение для *всех* таких ключей.

In [9]:
s['a'] = 100
s

a    100.000000
c     -0.418775
e      1.884534
f      2.000000
a    100.000000
g      3.000000
dtype: float64

In [10]:
s['a'] += 15
s

a    115.000000
c     -0.418775
e      1.884534
f      2.000000
a    115.000000
g      3.000000
dtype: float64

Списки Series можно сортировать как по ключам, так и по значениям с помощью методов **sort_values** и **sort_index**.

In [11]:
s = s.sort_values()
s

c     -0.418775
e      1.884534
f      2.000000
g      3.000000
a    115.000000
a    115.000000
dtype: float64

In [12]:
s = s.sort_index()
s

a    115.000000
a    115.000000
c     -0.418775
e      1.884534
f      2.000000
g      3.000000
dtype: float64

Также к спискам Series можно применять арифметические операции, которые выполняются поэлементно. Так, можно сложить два списка одинакового размера, умножить список на число и т.д.

In [52]:
s * s

a    13225.000000
a    13225.000000
c        0.175372
e        3.551468
f        4.000000
g        9.000000
dtype: float64

In [53]:
s + 2

a    117.000000
a    117.000000
c      1.581225
e      3.884534
f      4.000000
g      5.000000
dtype: float64

## DataFrame

** DataFrame (2D) ** — это проиндексированный двумерный массив значений, соответственно каждый столбец **DataFrame** является структурой **Series**. Он отлично подходит для представления реальных данных: столбцы соответствуют признакам, а  строки - признаковым описаниям отдельных объектов.
### Создание
DataFrame, как и Series, можно создать из словаря:

In [14]:
df = pd.DataFrame({'numbers' : range(1, 6), 'chars' : ['a'] * 5})
df

Unnamed: 0,chars,numbers
0,a,1
1,a,2
2,a,3
3,a,4
4,a,5


Или из двумерного массива. Существует специальный атрибут **columns**, позволяющий прописать заголовки. Если не воспользоваться им, столбцы будут просто пронумерованы.

In [15]:
df = pd.DataFrame([['a', 1], ['b', 2], ['c', 3]], columns=['chars', 'numbers'])
df

Unnamed: 0,chars,numbers
0,a,1
1,b,2
2,c,3


Однако в большинстве случаев удобнее считывать данные из файла. Это делается с помощью метода **read_csv**. Параметром ему передается путь к файлу, с помощью атрибутов указываются номер строки с заголовками (если они есть) и используемый разделитель.

In [16]:
df = pd.read_csv("df.txt", header=0, sep='\t') # Здесь заголовки лежат в первой строке, а разделителем является табуляция
df

Unnamed: 0,number,city,population
0,1,Moscow,12380664
1,2,Helsinki,620982


### Добавление данных

В DataFrame можно добавить строку, воспользовавшись методом **append**. Если атрибут **ignore_index** = True, то при добавлении новых записей их индексы не будут учитываться. Так как у строки нет индекса, то при ее добавлении *необходимо* прописать ignore_index=True.

Прибавим строку, заданную словарем:

In [17]:
line_1 = {'number' : '3', 'city' : 'Arzamas'}
df = df.append(line_1, ignore_index=True)
df

Unnamed: 0,number,city,population
0,1,Moscow,12380664.0
1,2,Helsinki,620982.0
2,3,Arzamas,


Это же метод позволяет прибавить и другой DataFrame:

In [18]:
df_2 = pd.DataFrame([[np.nan, 'Belomorsk', 9861], [5, 'Odessa', 1010783]],
                      columns=['number', 'city', 'population'])
df = df.append(df_2, ignore_index=True)
df

Unnamed: 0,number,city,population
0,1.0,Moscow,12380664.0
1,2.0,Helsinki,620982.0
2,3.0,Arzamas,
3,,Belomorsk,9861.0
4,5.0,Odessa,1010783.0


Добавление столбцов происходит так же, как и в словарях. Ключом служит имя столбца, значением -- список, который мы добавляем.

In [19]:
df['country'] = ['Russia', 'Finland', 'Russia', 'Russia', 'Ukraine']
df

Unnamed: 0,number,city,population,country
0,1.0,Moscow,12380664.0,Russia
1,2.0,Helsinki,620982.0,Finland
2,3.0,Arzamas,,Russia
3,,Belomorsk,9861.0,Russia
4,5.0,Odessa,1010783.0,Ukraine


Добавить новый столбец можно и по-другому, используя метод **insert**. Первый параметр указывает, после какого столбца следует добавить столбец, второй параметр - это название нового столбца, а третий - добавляемый список.

In [20]:
is_capital = [True] * 2 + [False] * 3
df.insert(2, 'is_capital', is_capital)
df

Unnamed: 0,number,city,is_capital,population,country
0,1.0,Moscow,True,12380664.0,Russia
1,2.0,Helsinki,True,620982.0,Finland
2,3.0,Arzamas,False,,Russia
3,,Belomorsk,False,9861.0,Russia
4,5.0,Odessa,False,1010783.0,Ukraine


### Удаление данных

Для удаления строк и столбцов из DataFrame, как и для Series, существует метод **drop**. Как параметр ему нужно передать список названий строк/столбцов и прописать атрибут оси **axis**, равный 0 для строк и 1 для столбцов. Также у drop есть атрибут **inplace**, с которым мы уже сталкивались.

In [21]:
df.drop([3], axis=0)

Unnamed: 0,number,city,is_capital,population,country
0,1,Moscow,True,12380664.0,Russia
1,2,Helsinki,True,620982.0,Finland
2,3,Arzamas,False,,Russia
4,5,Odessa,False,1010783.0,Ukraine


In [22]:
df.drop(['number'], axis=1, inplace=True)
df

Unnamed: 0,city,is_capital,population,country
0,Moscow,True,12380664.0,Russia
1,Helsinki,True,620982.0,Finland
2,Arzamas,False,,Russia
3,Belomorsk,False,9861.0,Russia
4,Odessa,False,1010783.0,Ukraine


### Объединение таблиц

Для того, чтобы объединить две таблицы, существуют функции **merge** и **concat**.

In [23]:
df3 = pd.read_csv("df3.txt", header=0, sep='\t')
df3

Unnamed: 0,number,city,population,mayor
0,1,Moscow,,Sobyanin
1,2,Helsinki,620982.0,Vapaavuori
2,10,Yaroslavl,608079.0,Slepcov


В качестве параметров функции **merge** подаются две таблицы, для которых можно указать список тех столбцов, которые должны оказаться в новой таблице. Атрибут **on** нужен для обозначения списка столбцов-ключей. Также существует атрибут **how**, который определяет, каким образом будут сливаться таблицы. Ниже представлены его возможные значения и соответственно строки, которые окажутся в новой таблице:
* 'inner': значение строки в столбце-ключе встречается в обеих таблицах. 
* 'outer': значение строки в столбце-ключе встречается хотя бы в одной таблице. 
* 'left': значение строки в столбце-ключе встречается в левой таблице.
* 'right': значение строки в столбце-ключе встречается в правой таблице.

In [24]:
pd.merge(df, df3[['mayor', 'city']], how='inner', on='city') # Возьмем все столбцы из первой таблицы,
                                                            # добавим столбец с мэрами и городами из второй. 
                                                            # Пересечем таблицы по названию городов

Unnamed: 0,city,is_capital,population,country,mayor
0,Moscow,True,12380664.0,Russia,Sobyanin
1,Helsinki,True,620982.0,Finland,Vapaavuori


In [25]:
pd.merge(df, df3, how='left', on='city') # Cделаем то же самое, но из второй таблицы будут добавлены все столбцы.
                                        # Названия городов возьмем из первой таблицы

Unnamed: 0,city,is_capital,population_x,country,number,population_y,mayor
0,Moscow,True,12380664.0,Russia,1.0,,Sobyanin
1,Helsinki,True,620982.0,Finland,2.0,620982.0,Vapaavuori
2,Arzamas,False,,Russia,,,
3,Belomorsk,False,9861.0,Russia,,,
4,Odessa,False,1010783.0,Ukraine,,,


Функция **concat** принимает массив из объектов, которые следует объединить, и имеет атрибут **axis** - по какой из осей нужно соединять таблицы. 

In [26]:
pd.concat([df, df3], axis=0)

Unnamed: 0,city,country,is_capital,mayor,number,population
0,Moscow,Russia,True,,,12380664.0
1,Helsinki,Finland,True,,,620982.0
2,Arzamas,Russia,False,,,
3,Belomorsk,Russia,False,,,9861.0
4,Odessa,Ukraine,False,,,1010783.0
0,Moscow,,,Sobyanin,1.0,
1,Helsinki,,,Vapaavuori,2.0,620982.0
2,Yaroslavl,,,Slepcov,10.0,608079.0


In [27]:
pd.concat([df, df3[['mayor']]], axis=1)

Unnamed: 0,city,is_capital,population,country,mayor
0,Moscow,True,12380664.0,Russia,Sobyanin
1,Helsinki,True,620982.0,Finland,Vapaavuori
2,Arzamas,False,,Russia,Slepcov
3,Belomorsk,False,9861.0,Russia,
4,Odessa,False,1010783.0,Ukraine,


Она полезна в том случае, когда в таблицах полное соответствие строк (столбцов) по данной оси. Обратите внимание, что в качестве мэра Арзамаса в табличке выше указан Слепцов (мэр Ярославля). 

### Индексация

Чтобы воспользоваться столбцом как объектом типа Series, нужно обратиться к нему по имени через точку:

In [28]:
df.city

0       Moscow
1     Helsinki
2      Arzamas
3    Belomorsk
4       Odessa
Name: city, dtype: object

Также можно представить его как отдельный DataFrame с помощью двойных квадратных скобочек:

In [29]:
df[['city']]

Unnamed: 0,city
0,Moscow
1,Helsinki
2,Arzamas
3,Belomorsk
4,Odessa


Таким образом можно вывести DataFrame с произвольным количеством столбцов, просто перечислив их имена в списке:

In [30]:
df[['city', 'country', 'is_capital']]

Unnamed: 0,city,country,is_capital
0,Moscow,Russia,True
1,Helsinki,Finland,True
2,Arzamas,Russia,False
3,Belomorsk,Russia,False
4,Odessa,Ukraine,False


Со строками работать не труднее. К ним нельзя обратиться по индексу, но можно брать срезы, как в обычных списках.

In [31]:
df[2:4]

Unnamed: 0,city,is_capital,population,country
2,Arzamas,False,,Russia
3,Belomorsk,False,9861.0,Russia


Для получения первых строк также существует метод **head**:

In [32]:
df.head(2)

Unnamed: 0,city,is_capital,population,country
0,Moscow,True,12380664.0,Russia
1,Helsinki,True,620982.0,Finland


Чтобы выбрать какой-то произвольный список строк и столбцов, можно использовать один из двух методов: **loc** или **iloc**.

Команда **loc** позволяет индексировать DataFrame с помощью обращения к названию осей. При этом *учитывается и начало, и конец среза*. 

In [33]:
df.loc[1:3, 'city':'population']

Unnamed: 0,city,is_capital,population
1,Helsinki,True,620982.0
2,Arzamas,False,
3,Belomorsk,False,9861.0


Команда **iloc** принимает индексы начала и конца среза, и *конец среза не учитывается*. 

In [34]:
df.iloc[1:3, 0:2]

Unnamed: 0,city,is_capital
1,Helsinki,True
2,Arzamas,False


Этим методам можно подавать на вход не только срезы, но и списки нужных названий или индексов:

In [35]:
df.loc[[0, 2, 4], ['city', 'is_capital', 'country']]

Unnamed: 0,city,is_capital,country
0,Moscow,True,Russia
2,Arzamas,False,Russia
4,Odessa,False,Ukraine


### Применение функций к ячейкам, столбцам и строкам

Pandas позволяет применять функции к столбцу с помощью метода **apply**:

In [36]:
df[['population']].apply(lambda x : x // 2) # Уменьшим численность населения в два раза

Unnamed: 0,population
0,6190332.0
1,310491.0
2,
3,4930.0
4,505391.0


In [37]:
df.apply(max) # Найдем максимум для каждого столбца

city               Odessa
is_capital           True
population    1.23807e+07
country           Ukraine
dtype: object

То же самое можно делать и со строками, указав атрибут **axis**=1.

Метод **map** можно использовать, чтобы применить функцию к каждой ячейке столбца. Например, с помощью map и словаря можно изменить значения:

In [38]:
print(df.is_capital)
d = {True : 'Yes', False : 'No'}
df['is_capital'].map(d) # Изменим булевы значения на соответствующие строки в столбце is_capital

0     True
1     True
2    False
3    False
4    False
Name: is_capital, dtype: bool


0    Yes
1    Yes
2     No
3     No
4     No
Name: is_capital, dtype: object

Заполнить пустые ячейки может метод **fillna**:

In [39]:
df.fillna(0)

Unnamed: 0,city,is_capital,population,country
0,Moscow,True,12380664.0,Russia
1,Helsinki,True,620982.0,Finland
2,Arzamas,False,0.0,Russia
3,Belomorsk,False,9861.0,Russia
4,Odessa,False,1010783.0,Ukraine


### Фильтрация и селекция

Pandas позволяет фильтровать данные в таблице с помощью логических операторов (&, |, ==, != и так далее). Для этого следует выбрать нужную часть таблицы и применить к ней логическое выражение. Например, вычислим количество городов, население которых превышает 10 000.

In [40]:
print(len(df[df.population > 1e4])) # Выбираем столбец с населением, сравниваем с 10000,
                                    # выбираем строки, где это правда, и считаем их количество

3


Или, например, в данной таблице можно отфильтровать данные, оставив информацию только про города, не являющиеся столицами. Для этого нужно в квадратных скобках написать соответствующее логическое выражение. 

In [41]:
df[df.is_capital == False]

Unnamed: 0,city,is_capital,population,country
2,Arzamas,False,,Russia
3,Belomorsk,False,9861.0,Russia
4,Odessa,False,1010783.0,Ukraine


Выражение можно усложнить, выбрав, например, все российские города, не являющиеся столицами.

In [42]:
df[(df.is_capital == False) & (df.country == 'Russia')]

Unnamed: 0,city,is_capital,population,country
2,Arzamas,False,,Russia
3,Belomorsk,False,9861.0,Russia


### Группировка

Pandas позволяет группировать данные с помощью метода **groupby**, принимающего на вход имя признака и возвращающая  объект **DataFrameGroupBy**, в котором хранятся сведения о группировке данных.

In [43]:
df.groupby('country')

<pandas.core.groupby.DataFrameGroupBy object at 0x07523EF0>

В этом объекте можно выбрать интересующие столбцы по названию (но можно и не выбирать) и применить ряд функций, позволяющих проанализировать сведения о каждой группе. Вот часть таких функций:

![alternate text](https://pp.userapi.com/c841632/v841632172/150fd/DtGqi1-LYig.jpg)

Также можно посмотреть количество различных значений поля, по которому происходит группировка, с помощью функции **size**:

In [44]:
df.groupby('country').size()

country
Finland    1
Russia     3
Ukraine    1
dtype: int64

Как пример, рассчитаем суммарное население в каждой стране, представленной в таблице:

In [45]:
df.groupby('country')['population'].sum()

country
Finland      620982.0
Russia     12390525.0
Ukraine     1010783.0
Name: population, dtype: float64

Функция **get_group** дает возможность посмотреть все ячейки конкретной группы по набору столбцов.

In [46]:
df.groupby(['country'])[['city', 'is_capital']].get_group('Russia')

Unnamed: 0,city,is_capital
0,Moscow,True
2,Arzamas,False
3,Belomorsk,False


### Сводные таблицы

Сводные таблицы помогают обобщать численные данные. Они могут автоматически сортировать и подсчитывать данные, а также вычислять общее или среднее значение в одной таблице. 

В Pandas для этого существует функция **pivot_table**, принимающая на вход список столбцов, по которым будет считаться агрегированные значения, и список столбцов, которые будут строками итоговой таблицы. Атрибут **aggfunc** задает функцию, которая используется для агрегации, а **fill_value** - параметр для замены пустых значений на 0.

In [54]:
df['living_wage'] = [15307, 84925, 8082, 13730, 3958] # Добавим к таблице еще один столбец
df

Unnamed: 0,city,is_capital,population,country,living_wage
0,Moscow,True,12380664.0,Russia,15307
1,Helsinki,True,620982.0,Finland,84925
2,Arzamas,False,,Russia,8082
3,Belomorsk,False,9861.0,Russia,13730
4,Odessa,False,1010783.0,Ukraine,3958


In [55]:
df.pivot_table(['population', 'living_wage'], ['country'], aggfunc='mean', fill_value=0) #Посчитаем средние значения 
# прожиточного минимума и численности населения для разных стран, все пустые ячейки заполним 0

Unnamed: 0_level_0,living_wage,population
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Finland,84925,620982
Russia,12373,6195262
Ukraine,3958,1010783


# Пример

Есть две таблички. В первой (data.csv) лежит информация о количестве бюджетных и платных мест по разным специальностям двух факультетов. Во второй (cost.csv) -- информация о стоимости обучения на всех направлениях подготовки ВШЭ. Посчитаем количество денег, полученных за обучение на платной основе по каждому из представленных факультетов. 

In [102]:
data = pd.read_csv("data.csv", sep=',', header=0) # Считаем файлы
data

Unnamed: 0,Направление подготовки,Бюджетные места,Квота,Целевая квота,Платные места,Платные места для иностранцев,Факультет
0,Реклама и связи с общественностью,35.0,4.0,1.0,300,10,"Факультет коммуникаций, медиа и дизайна"
1,Журналистика,40.0,4.0,,70,10,"Факультет коммуникаций, медиа и дизайна"
2,Медиакоммуникации,30.0,3.0,,120,10,"Факультет коммуникаций, медиа и дизайна"
3,Филология,33.0,3.0,,80,5,Факультет гуманитарных наук
4,Фундаментальная и компьютерная лингвистика,37.0,4.0,,50,5,Факультет гуманитарных наук
5,История,60.0,6.0,,30,5,Факультет гуманитарных наук
6,Философия,45.0,5.0,,20,5,Факультет гуманитарных наук
7,История искусств,25.0,3.0,,30,5,Факультет гуманитарных наук
8,Культурология,30.0,3.0,,30,5,Факультет гуманитарных наук
9,Дизайн,55.0,6.0,,300,10,"Факультет коммуникаций, медиа и дизайна"


In [103]:
cost = pd.read_csv("cost.csv", sep=',', header=0)
cost.head() # Посмотрим на первые пять строк

Unnamed: 0,Направление подготовки,Стоимость обучения
0,Математика,320
1,Совместный бакалавриат НИУ ВШЭ и Центра педаго...,260
2,Прикладная математика и информатика,350
3,Прикладная математика,260
4,Физика,320


Совместим таблички, добавив в первую столбец со стоимостью на соответсвующих направлениях:

In [104]:
data = pd.merge(data, cost, how='left', on='Направление подготовки') # Ключевой столбец - 'Направление подготовки',
                                                                    # берем строки из первой таблицы
data

Unnamed: 0,Направление подготовки,Бюджетные места,Квота,Целевая квота,Платные места,Платные места для иностранцев,Факультет,Стоимость обучения
0,Реклама и связи с общественностью,35.0,4.0,1.0,300,10,"Факультет коммуникаций, медиа и дизайна",370
1,Журналистика,40.0,4.0,,70,10,"Факультет коммуникаций, медиа и дизайна",300
2,Медиакоммуникации,30.0,3.0,,120,10,"Факультет коммуникаций, медиа и дизайна",300
3,Филология,33.0,3.0,,80,5,Факультет гуманитарных наук,300
4,Фундаментальная и компьютерная лингвистика,37.0,4.0,,50,5,Факультет гуманитарных наук,300
5,История,60.0,6.0,,30,5,Факультет гуманитарных наук,260
6,Философия,45.0,5.0,,20,5,Факультет гуманитарных наук,260
7,История искусств,25.0,3.0,,30,5,Факультет гуманитарных наук,300
8,Культурология,30.0,3.0,,30,5,Факультет гуманитарных наук,260
9,Дизайн,55.0,6.0,,300,10,"Факультет коммуникаций, медиа и дизайна",350


In [105]:
data['Платные места'] = data['Платные места'].astype('int64') # Поменяем тип столбца на int
data['Платные места для иностранцев'] = data['Платные места для иностранцев'].astype('int64')

Добавим к платным местам количество платных мест для иностранцев, и удалим этот столбец. 

In [106]:
data['Платные места'] += data['Платные места для иностранцев']
data.drop(['Платные места для иностранцев'], axis=1, inplace=True)

In [107]:
data

Unnamed: 0,Направление подготовки,Бюджетные места,Квота,Целевая квота,Платные места,Факультет,Стоимость обучения
0,Реклама и связи с общественностью,35.0,4.0,1.0,310,"Факультет коммуникаций, медиа и дизайна",370
1,Журналистика,40.0,4.0,,80,"Факультет коммуникаций, медиа и дизайна",300
2,Медиакоммуникации,30.0,3.0,,130,"Факультет коммуникаций, медиа и дизайна",300
3,Филология,33.0,3.0,,85,Факультет гуманитарных наук,300
4,Фундаментальная и компьютерная лингвистика,37.0,4.0,,55,Факультет гуманитарных наук,300
5,История,60.0,6.0,,35,Факультет гуманитарных наук,260
6,Философия,45.0,5.0,,25,Факультет гуманитарных наук,260
7,История искусств,25.0,3.0,,35,Факультет гуманитарных наук,300
8,Культурология,30.0,3.0,,35,Факультет гуманитарных наук,260
9,Дизайн,55.0,6.0,,310,"Факультет коммуникаций, медиа и дизайна",350


Введем новый столбец - количество денег, которые получит вуз от абитуриентов за первый год, при условии, что все платные места будут заполнены.

In [108]:
data['Прибыль'] = data['Платные места'] * data['Стоимость обучения']
data

Unnamed: 0,Направление подготовки,Бюджетные места,Квота,Целевая квота,Платные места,Факультет,Стоимость обучения,Прибыль
0,Реклама и связи с общественностью,35.0,4.0,1.0,310,"Факультет коммуникаций, медиа и дизайна",370,114700
1,Журналистика,40.0,4.0,,80,"Факультет коммуникаций, медиа и дизайна",300,24000
2,Медиакоммуникации,30.0,3.0,,130,"Факультет коммуникаций, медиа и дизайна",300,39000
3,Филология,33.0,3.0,,85,Факультет гуманитарных наук,300,25500
4,Фундаментальная и компьютерная лингвистика,37.0,4.0,,55,Факультет гуманитарных наук,300,16500
5,История,60.0,6.0,,35,Факультет гуманитарных наук,260,9100
6,Философия,45.0,5.0,,25,Факультет гуманитарных наук,260,6500
7,История искусств,25.0,3.0,,35,Факультет гуманитарных наук,300,10500
8,Культурология,30.0,3.0,,35,Факультет гуманитарных наук,260,9100
9,Дизайн,55.0,6.0,,310,"Факультет коммуникаций, медиа и дизайна",350,108500


Теперь построим итоговую сводную таблицу. 

In [110]:
res = data.pivot_table(['Прибыль'], ['Факультет'], aggfunc='sum', fill_value=0)
res

Unnamed: 0_level_0,Прибыль
Факультет,Unnamed: 1_level_1
Факультет гуманитарных наук,77200
"Факультет коммуникаций, медиа и дизайна",304200
