# Операции в pandas

In [1]:
import numpy as np
import pandas as pd
import scipy.stats as sps

In [2]:
df = pd.DataFrame(sps.norm.rvs(size=(10, 4)), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,-1.014638,0.178489,-0.260949,0.006968
1,-0.361673,-0.68135,1.439988,0.661605
2,2.432527,0.796662,-0.117635,0.756893
3,-1.021512,-2.2197,-0.15859,0.597023
4,1.710508,-1.406257,-0.69461,0.135524
5,0.103072,0.401109,-0.874112,1.091087
6,1.656687,0.66529,-0.723565,-3.092935
7,-0.512456,-0.154385,0.719065,0.98046
8,-0.704775,0.088377,-0.208816,-2.071363
9,0.803133,-1.13445,1.856127,0.371893


### Простые операции

In [3]:
df.describe()

Unnamed: 0,A,B,C,D
count,10.0,10.0,10.0,10.0
mean,0.309087,-0.346621,0.09769,-0.056285
std,1.258352,0.986354,0.934593,1.394459
min,-1.021512,-2.2197,-0.874112,-3.092935
25%,-0.656695,-1.021175,-0.586195,0.039107
50%,-0.1293,-0.033004,-0.183703,0.484458
75%,1.443299,0.345454,0.50989,0.733071
max,2.432527,0.796662,1.856127,1.091087


In [4]:
df.mean()

A    0.309087
B   -0.346621
C    0.097690
D   -0.056285
dtype: float64

In [5]:
df.corr()

Unnamed: 0,A,B,C,D
A,1.0,0.2852,-0.178535,-0.149739
B,0.2852,1.0,-0.303877,-0.317785
C,-0.178535,-0.303877,1.0,0.32739
D,-0.149739,-0.317785,0.32739,1.0


Применение функции к данным.
Для примера посчитаем разброс значений -- разница максимума и минимума.

In [6]:
df.apply(lambda x: x.max() - x.min())

A    3.454039
B    3.016362
C    2.730239
D    4.184022
dtype: float64

### Объединение таблиц

Добавление строк в таблицу. При наличии у новых строк колонок, которых нет в таблице, они добавляются в таблицу.

`df.append(other, ignore_index=False, verify_integrity=False)`

* `df` -- таблица
* `other` -- добавляемые строки
* `ignore_index` -- сохранить индексы или определить и как 0, ..., n-1;
* `verify_integrity` -- если `True`, то создает исключение в случае повторения индексов.

In [7]:
other = df[:4].copy()  # Полное копирование
other['flag'] = other['D'] > 0
other['D'] = other['D'] ** 2

df.append(other, ignore_index=True)

Unnamed: 0,A,B,C,D,flag
0,-1.014638,0.178489,-0.260949,0.006968,
1,-0.361673,-0.68135,1.439988,0.661605,
2,2.432527,0.796662,-0.117635,0.756893,
3,-1.021512,-2.2197,-0.15859,0.597023,
4,1.710508,-1.406257,-0.69461,0.135524,
5,0.103072,0.401109,-0.874112,1.091087,
6,1.656687,0.66529,-0.723565,-3.092935,
7,-0.512456,-0.154385,0.719065,0.98046,
8,-0.704775,0.088377,-0.208816,-2.071363,
9,0.803133,-1.13445,1.856127,0.371893,


Соединение таблиц вдоль выбранной оси

`pd.concat(objs, axis=0, join='outer', ignore_index=False, copy=True, ...)`

* `objs` -- объединяемые таблицы;
* `axis` : {`0`/`'index'`, `1`/`'columns'`} -- ось;
* `join` : {`'inner'`, `'outer'`} -- тип объединения (пересечение или объединение);
* `ignore_index` -- сохранить индексы или определить и как 0, ..., n-1;
* `copy` -- копировать данные или нет.


In [8]:
pd.concat([df[:5], df[5:]])

Unnamed: 0,A,B,C,D
0,-1.014638,0.178489,-0.260949,0.006968
1,-0.361673,-0.68135,1.439988,0.661605
2,2.432527,0.796662,-0.117635,0.756893
3,-1.021512,-2.2197,-0.15859,0.597023
4,1.710508,-1.406257,-0.69461,0.135524
5,0.103072,0.401109,-0.874112,1.091087
6,1.656687,0.66529,-0.723565,-3.092935
7,-0.512456,-0.154385,0.719065,0.98046
8,-0.704775,0.088377,-0.208816,-2.071363
9,0.803133,-1.13445,1.856127,0.371893


Слияние таблиц путем выполнения операций слияния баз данных в стиле SQL

`pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, suffixes=('_x', '_y'), ...)`

* `left` и `right` -- объединяемые таблицы;
* `how` -- тип объединения:
    * `left` -- только по ключам из левой таблицы == *SQL left outer join*;
    * `right` -- только по ключам из правой таблицы == *SQL right outer join*;
    * `outer` -- по объединению ключей == *SQL full outer join*;
    * `inner` -- по пересечению ключей == *SQL inner join*;
* `on` -- имя (или имена) колонок, по которым будет производиться объединение (т.е. ключи);
* `left_on` и `right_on` -- аналогично on для случая, когда имена колонок в таблицах различаются;
* `left_index` и `right_index` -- использовать ли индексы в качестве ключей;
* `suffixes` -- суффиксы для перекрывающихся имен.

`df.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)`

* `df` -- основная таблица;
* `other` -- другая таблица;
* `on` -- колонка(-и) в `other`, по которой происходит объедиенение. Если `None`, то используется индекс;
* `how` -- тип объединения (см. `pd.merge`)
* `lsuffix` и `rsuffix` -- суффиксы для перекрывающихся имен.

##### Пример 1.

В обеих таблицах ключи повторяются

In [9]:
left = pd.DataFrame({'key': ['A', 'A'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'A'], 'rval': [4, 5]})

In [10]:
left

Unnamed: 0,key,lval
0,A,1
1,A,2


In [11]:
right

Unnamed: 0,key,rval
0,A,4
1,A,5


В результате объединения получаем 4 строки -- для каждой строки из левой таблице есть две строки из правой таблицы с таким же ключом

In [12]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,A,1,5
2,A,2,4
3,A,2,5


###### Пример 2.

В таблицах ключи не повторяются

In [13]:
left = pd.DataFrame({'key': ['A', 'B'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'B'], 'rval': [4, 5]})

In [14]:
left

Unnamed: 0,key,lval
0,A,1
1,B,2


In [15]:
right

Unnamed: 0,key,rval
0,A,4
1,B,5


В результате объединения получаем 2 строки -- для каждой строки из левой таблице есть только одна строка из правой таблицы с таким же ключом

In [16]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,B,2,5


###### Пример 3.

In [17]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'], 'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'], 'value': range(4, 8)})

In [18]:
left

Unnamed: 0,lkey,value
0,A,0
1,B,1
2,C,2
3,A,3


In [19]:
right

Unnamed: 0,rkey,value
0,A,4
1,B,5
2,D,6
3,B,7


Внешнее слияние -- используются ключи из объединения, т.е. которые есть хотя бы в одной из таблиц

In [20]:
pd.merge(left, right, left_on='lkey', right_on='rkey', how='outer')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4.0
1,A,3.0,A,4.0
2,B,1.0,B,5.0
3,B,1.0,B,7.0
4,C,2.0,,
5,,,D,6.0


Внутреннее слияние -- используются ключи из пересечения, т.е. которые присутствуют в обеих таблицах

In [21]:
pd.merge(left, right, left_on='lkey', right_on='rkey', how='inner')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4
1,A,3,A,4
2,B,1,B,5
3,B,1,B,7


Объединение по ключам левой таблицы. Не используются ключи, которые есть в правой таблицы, но которых нет в левой

In [22]:
pd.merge(left, right, left_on='lkey', right_on='rkey', how='left')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4.0
1,B,1,B,5.0
2,B,1,B,7.0
3,C,2,,
4,A,3,A,4.0


Объединение по ключам правой таблицы. Не используются ключи, которые есть в левой таблицы, но которых нет в правой

In [23]:
pd.merge(left, right, left_on='lkey', right_on='rkey', how='right')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4
1,A,3.0,A,4
2,B,1.0,B,5
3,B,1.0,B,7
4,,,D,6


Установка ключа в качестве индекса

In [24]:
pd.merge(left, right, left_on='lkey', right_on='rkey', how='inner') \
.set_index('lkey')[['value_x', 'value_y']]

Unnamed: 0_level_0,value_x,value_y
lkey,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
A,3,4
B,1,5
B,1,7


Тоже самое с помощью `join`

In [25]:
left.set_index('lkey').join(right.set_index('rkey'), rsuffix='_r')

Unnamed: 0,value,value_r
A,0,4.0
A,3,4.0
B,1,5.0
B,1,7.0
C,2,


### Группировка

Этапы группировки данных:

* разбиение данных на группы по некоторым критериям
* применение функции отдельно к каждой группе
* комбинирование результата в структуру данных

Группировка выполняется функцией

`df.groupby(by=None, axis=0, level=None, sort=True, ...)`

* `df` -- таблица, данные которой должны быть сгруппированы;
* `by` -- задает принцип группировки. Чаще всего это имя столбца, по которому нужно сгруппировать. Может так же быть функцией;
* `axis` -- ось;
* `level` -- если ось представлена мультииндексом, то указывает на уровень мультииндекса;
* `sort` -- сортировка результата по индексу.

К объекту-результату группировки применимы, например, следующие операции:

* `for name, group in groupped: ... ` -- цикл по группам;
* `get_group(name)` -- получить таблицу, соответствующую группе с именем `name`;
* `groups` -- получить все группы;
* `count()` -- количество значений в группах, исключая пропуски;
* `size()` -- размер групп;
* `sum()`, `max()`, `min()`;
* `mean()`, `median()`, `var()`, `std()`, `corr()`, `quantile(q)`;
* `describe()` -- вывод описательных статистик;
* `aggregate(func)` -- применение функции(-й) `func` к группам;

In [26]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C' : sps.norm.rvs(size=8),
                   'D' : sps.norm.rvs(size=8)})

df

Unnamed: 0,A,B,C,D
0,foo,one,0.162973,-0.206718
1,bar,one,0.216162,0.230618
2,foo,two,0.482974,0.691863
3,bar,three,-0.225619,-1.047957
4,foo,two,-0.015949,-0.114688
5,bar,two,1.90254,0.399311
6,foo,one,0.346858,0.705917
7,foo,three,0.949023,1.3146


##### Пример 1.

Группировка по одной колонке и последующее применение операции суммирования

In [27]:
df.groupby('A').sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,1.893083,-0.418028
foo,1.925878,2.390974


Подсчет описательных статистик

In [28]:
df.groupby('A').describe()

Unnamed: 0_level_0,C,C,C,C,C,C,C,C,D,D,D,D,D,D,D,D
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
bar,3.0,0.631028,1.123099,-0.225619,-0.004729,0.216162,1.059351,1.90254,3.0,-0.139343,0.791391,-1.047957,-0.408669,0.230618,0.314965,0.399311
foo,5.0,0.385176,0.367162,-0.015949,0.162973,0.346858,0.482974,0.949023,5.0,0.478195,0.635944,-0.206718,-0.114688,0.691863,0.705917,1.3146


##### Пример 2.

Группировка по двум колонкам и последующее применение операции суммирования

In [29]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.216162,0.230618
bar,three,-0.225619,-1.047957
bar,two,1.90254,0.399311
foo,one,0.509831,0.499199
foo,three,0.949023,1.3146
foo,two,0.467024,0.577175


Полученная таблица имеет *мультииндекс*

In [30]:
df.groupby(['A','B']).sum().index

MultiIndex(levels=[['bar', 'foo'], ['one', 'three', 'two']],
           labels=[[0, 0, 0, 1, 1, 1], [0, 1, 2, 0, 1, 2]],
           names=['A', 'B'])

### Таблицы сопряженности (Crosstab) и сводные таблицы (Pivot table)

Эксель-подобные таблицы сопряженности

`pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)`

* `index` -- значения для группировки по строкам;
* `columns` -- значения для группировки по столбцам;
* `values` -- аггригируемый столбец (или столбцы), его значения непосредственно определяют значения таблицы сопряженности;
* `aggfunc` -- функция, которая будет применена к каждой группе значений `values`, сгруппированным по значениям`index` и `columns`. Значения этой функции и есть значения сводной таблицы;
* `rownames` и `colnames` -- имена строк и столбцов таблицы сопряженности;
* `margins` -- добавляет результирующий столбец/строку;
* `margins_name` -- имя результирующего столбец/строку;
* `dropna` -- не включать столбцы, которые состоят только из `NaN`;
* `normalize`: `boolean`, {`'all'`, `'index'`, `'columns'`} -- нормировка всей таблицы (или только по строкам/столбцам).

Эксель-подобные сводные таблицы

`pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')`

* `data` -- исходная таблица;
* `values` -- аггригируемый столбец, его значения непосредственно определяют значения сводной таблицы;
* `index` -- ключи для группировки, относятся к индексам сводной таблицы;
* `columns` -- ключи для группировки, относятся к столбцам сводной таблицы;
* `aggfunc` -- функция, которая будет применена к каждой группе значений `values`, сгруппированным по значениям `index` и `columns`. Значения этой функции и есть значения сводной таблицы. Если передается список функций, то сводная таблица имеет иерархические имена колонок, верхние значения которых -- имена функций;
* `fill_value` -- значения для замены пропусков;
* `dropna` -- не включать столбцы, которые состоят только из `NaN`;
* `margins` -- добавляет результирующий столбец/строку;
* `margins_name` -- имя результирующего столбец/строку.



In [31]:
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'two'] * 6,
                   'B' : ['a', 'b', 'c'] * 8,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'foo'] * 4,
                   'D' : sps.randint(low=1, high=6).rvs(size=24),
                   'E' : sps.randint(low=1, high=6).rvs(size=24)})

df

Unnamed: 0,A,B,C,D,E
0,one,a,foo,4,4
1,one,b,foo,1,5
2,two,c,foo,3,5
3,two,a,bar,4,4
4,one,b,bar,1,2
5,one,c,foo,1,5
6,two,a,foo,1,4
7,two,b,foo,3,2
8,one,c,foo,4,5
9,one,a,bar,3,5


Таблица сопряженности по столбцам B и C и суммарными значениями по столбцу D

In [32]:
pd.crosstab(df['B'], df['C'], values=df['D'], aggfunc=np.sum)

C,bar,foo
B,Unnamed: 1_level_1,Unnamed: 2_level_1
a,15.0,11.0
b,8.0,11.0
c,,24.0


Количество пар по значениям столбцов B и C, а так же столбец суммы 

In [33]:
pd.crosstab(df['B'], df['C'], margins=True)

C,bar,foo,All
B,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,4,4,8
b,4,4,8
c,0,8,8
All,8,16,24


Простейший вариант сводной таблицы -- среднее в группах, определяемых столбцом B

In [34]:
pd.pivot_table(df, index=['B'])

Unnamed: 0_level_0,D,E
B,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3.25,3.0
b,2.375,3.0
c,3.0,3.75


Посчитаем суммы по некоторым категориям

In [35]:
pd.pivot_table(df, values='D', index=['A', 'B'],
               columns=['C'], aggfunc=np.sum)

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,7.0,7.0
one,b,3.0,4.0
one,c,,9.0
two,a,8.0,4.0
two,b,5.0,7.0
two,c,,15.0


Добавим строчку, являющейся суммой столбцов, и столбец, являющийся суммой строк

In [36]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'], 
               aggfunc=np.sum, margins=True)

Unnamed: 0_level_0,C,bar,foo,All
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
one,a,7.0,7.0,14
one,b,3.0,4.0,7
one,c,,9.0,9
two,a,8.0,4.0,12
two,b,5.0,7.0,12
two,c,,15.0,15
All,,23.0,46.0,69


Применим несколько функций и несколько столбцов со значениями

In [37]:
pd.pivot_table(df, values=['D', 'E'], index=['A', 'B'], 
               columns=['C'], aggfunc=[np.min, np.mean, np.max])

Unnamed: 0_level_0,Unnamed: 1_level_0,amin,amin,amin,amin,mean,mean,mean,mean,amax,amax,amax,amax
Unnamed: 0_level_1,Unnamed: 1_level_1,D,D,E,E,D,D,E,E,D,D,E,E
Unnamed: 0_level_2,C,bar,foo,bar,foo,bar,foo,bar,foo,bar,foo,bar,foo
A,B,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3
one,a,3.0,3.0,1.0,3.0,3.5,3.5,3.0,3.5,4.0,4.0,5.0,4.0
one,b,1.0,1.0,2.0,1.0,1.5,2.0,2.5,3.0,2.0,3.0,3.0,5.0
one,c,,1.0,,5.0,,2.25,,5.0,,4.0,,5.0
two,a,4.0,1.0,2.0,1.0,4.0,2.0,3.0,2.5,4.0,3.0,4.0,4.0
two,b,1.0,3.0,1.0,2.0,2.5,3.5,3.0,3.5,4.0,4.0,5.0,5.0
two,c,,3.0,,1.0,,3.75,,2.5,,5.0,,5.0


### Чтение данных

`pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)`

`pd.read_excel(io, sheetname=0, header=0, skiprows=None, skip_footer=0, index_col=None, names=None, parse_cols=None, parse_dates=False, date_parser=None, na_values=None, thousands=None, convert_float=True, has_index_names=None, converters=None, dtype=None, true_values=None, false_values=None, engine=None, squeeze=False, **kwds)`

### Запись данных

`df.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=False, date_format=None, doublequote=True, escapechar=None, decimal='.')`

`df.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None)`