# Pandas

Традиционно pandas импортируют под именем pd:

In [2]:
import pandas as pd

Создадим небольшую "игрушечную" таблицу, чтобы разобраться с основами:

In [3]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40],'CCC' : [100,50,-30,-50]})

In [5]:
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


## Базовые идиомы

### Условная индексация

In [6]:
df.ix[df.AAA >= 5,'BBB'] = -1

In [7]:
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,-1,50
2,6,-1,-30
3,7,-1,-50


In [12]:
df.ix[df.AAA >= 4,['BBB','CCC']] = [[0, 7], [555, 666], [111, 222], [453, 345]]
df

Unnamed: 0,AAA,BBB,CCC
0,4,0,7
1,5,555,666
2,6,111,222
3,7,453,345


In [10]:
df_mask = pd.DataFrame({'AAA' : [True] * 4, 'BBB' : [False] * 4,'CCC' : [True,False] * 2})
df.where(df_mask,-1000)
#df

Unnamed: 0,AAA,BBB,CCC
0,4,-1000,100
1,5,-1000,-1000
2,6,-1000,555
3,7,-1000,-1000


In [13]:
import numpy as np

In [15]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40],'CCC' : [100,50,-30,-50]})
df['logic'] = np.where(df['AAA'] > 5, 'high', 'low')
df

Unnamed: 0,AAA,BBB,CCC,logic
0,4,10,100,low
1,5,20,50,low
2,6,30,-30,high
3,7,40,-50,high


Аналогично можно разбивать таблицу по булевским выражениям:

In [16]:
dflow = df[df.AAA <= 5]
dfhigh = df[df.AAA > 5]
dflow

Unnamed: 0,AAA,BBB,CCC,logic
0,4,10,100,low
1,5,20,50,low


In [17]:
dfhigh

Unnamed: 0,AAA,BBB,CCC,logic
2,6,30,-30,high
3,7,40,-50,high


Критерии могут использовать несколько колонок:

In [18]:
df

Unnamed: 0,AAA,BBB,CCC,logic
0,4,10,100,low
1,5,20,50,low
2,6,30,-30,high
3,7,40,-50,high


In [20]:
newseries = df.loc[(df['BBB'] < 25) & (df['CCC'] >= -40), 'AAA']
newseries

0    4
1    5
Name: AAA, dtype: int64

In [19]:
print type(newseries)
print type(df)

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


In [21]:
print newseries[1]

5


In [22]:
print df[1]

KeyError: 1

In [23]:
print df['AAA']
print type(df['AAA'])

0    4
1    5
2    6
3    7
Name: AAA, dtype: int64
<class 'pandas.core.series.Series'>


In [28]:
print type(df['AAA'])

<class 'pandas.core.series.Series'>


In [29]:
df

Unnamed: 0,AAA,BBB,CCC,logic
0,4,10,100,low
1,5,20,50,low
2,6,30,-30,high
3,7,40,-50,high


In [30]:
df.loc[(df['BBB'] > 25) | (df['CCC'] >= 75), 'AAA'] = 0.1
df

Unnamed: 0,AAA,BBB,CCC,logic
0,0.1,10,100,low
1,5.0,20,50,low
2,0.1,30,-30,high
3,0.1,40,-50,high


В следующей ячейке показано, как можно упорядочить строки по близости значения в одной из колонок к заданному с помощью функции argsort()

In [43]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40],'CCC' : [100,50,-30,-50]})
value = 43.0
#print type(df.CCC)
#print type(df.CCC.abs().argsort())
#print (df.CCC - value).abs().argsort()
df42 = df.ix[(df.CCC - value).abs().argsort()]
df42

Unnamed: 0,AAA,BBB,CCC
1,5,20,50
0,4,10,100
2,6,30,-30
3,7,40,-50


Если у вас есть список критериев, по которым нужно осуществить выборку:

In [45]:
crit1 = df.AAA <= 5.5
crit2 = df.BBB == 10.0
crit3 = df.CCC > -40.0

Вместо того, чтобы писать "в лоб":

In [34]:
all_crit = crit1 & crit2 & crit3

Лучше (особенно, если речь идет правда о списке, а не о трёх критериях) воспользоваться стандартной питоновской функцией reduce:

In [47]:
crit_list = [crit1, crit2, crit3]
all_crit = reduce(lambda x, y: x & y, crit_list)
df[all_crit]

Unnamed: 0,AAA,BBB,CCC
0,4,10,100


<b>Вопрос:</b>
если вместо reduce написать functools.reduce, в чем будет различие?

## Выбор элементов

In [37]:
df = pd.DataFrame({'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40],'CCC' : [100,50,-30,-50]})
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


In [38]:
df[(df.AAA <= 6) & (df.index.isin([0,2,4]))]

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
2,6,30,-30


In [41]:
data = {'AAA' : [4,5,6,7], 'BBB' : [10,20,30,40],'CCC' : [100,50,-30,-50]}

df = pd.DataFrame(data=data,index=['foo','bar','boo','kar'])
df

Unnamed: 0,AAA,BBB,CCC
foo,4,10,100
bar,5,20,50
boo,6,30,-30
kar,7,40,-50


В pandas есть два типа индексирования:
1. Label-oriented
1. Positional-oriented

Есть и обобщенный вариант. Начнем с Label-oriented:

In [42]:
df.loc['bar':'kar']

Unnamed: 0,AAA,BBB,CCC
bar,5,20,50
boo,6,30,-30
kar,7,40,-50


Обратите внимание, что при таком индексирования оба конца интервала включаются в интервал. Второй вариант - positional-oriented, работает немного иначе. Для него вместо "loc" используется "iloc", а последний индекс здесь не включается:

In [44]:
df.iloc[1:3]

Unnamed: 0,AAA,BBB,CCC
bar,5,20,50
boo,6,30,-30


Тех же результатов можно добиться с помощью ".ix" :

In [46]:
df.ix[1:3]

Unnamed: 0,AAA,BBB,CCC
bar,5,20,50
boo,6,30,-30


In [47]:
df.ix['bar':'kar']

Unnamed: 0,AAA,BBB,CCC
bar,5,20,50
boo,6,30,-30
kar,7,40,-50


Но что же будет, если в качестве меток строк будут использоваться целые числа? Очевидно, тогда возникает неоднозначность при использовании ".ix":

In [48]:
df2 = pd.DataFrame(data=data,index=[1,2,3,4])

Индекс 0 не использовался, чтобы показать одну интересную особенность разрешения этой неоднозначности. Если сделать срез с 0:

In [51]:
df2.ix[0:3]

Unnamed: 0,AAA,BBB,CCC
1,4,10,100
2,5,20,50
3,6,30,-30


Видим, что произошло position-oriented индексирование. Теперь попробуем с единицы:

In [52]:
df2.ix[1:3]

Unnamed: 0,AAA,BBB,CCC
1,4,10,100
2,5,20,50
3,6,30,-30


Здесь уже label-based. А "iloc" и "loc" работают, разумеется, по-прежнему. И в случае целочисленных индексов оправдывают свое существование, позволяя не думать о том, как будет разрешаться неоднозначность. 

Для инвертирования маски можно использовать обератор обращения ~:

In [54]:
df[~((df.AAA <= 6) & (df.index.isin([0,2,4])))]

Unnamed: 0,AAA,BBB,CCC
foo,4,10,100
bar,5,20,50
boo,6,30,-30
kar,7,40,-50


## Панели

In [56]:
rng = pd.date_range('1/1/2013', periods=100, freq='D')
data = np.random.randn(100, 4)
cols = ['A', 'B', 'C', 'D']

df1, df2, df3 = pd.DataFrame(data, rng, cols), pd.DataFrame(data, rng, cols),\
                pd.DataFrame(data, rng, cols)

In [57]:
pf = pd.Panel({'df1':df1,'df2':df2,'df3':df3})

In [58]:
pf

<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 100 (major_axis) x 4 (minor_axis)
Items axis: df1 to df3
Major_axis axis: 2013-01-01 00:00:00 to 2013-04-10 00:00:00
Minor_axis axis: A to D

In [60]:
pf = pf.transpose(2,0,1)
pf

<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 3 (major_axis) x 100 (minor_axis)
Items axis: A to D
Major_axis axis: df1 to df3
Minor_axis axis: 2013-01-01 00:00:00 to 2013-04-10 00:00:00

In [61]:
pf['E'] = pd.DataFrame(data, rng, cols)
pf

<class 'pandas.core.panel.Panel'>
Dimensions: 5 (items) x 3 (major_axis) x 100 (minor_axis)
Items axis: A to E
Major_axis axis: df1 to df3
Minor_axis axis: 2013-01-01 00:00:00 to 2013-04-10 00:00:00

In [62]:
pf = pf.transpose(1,2,0)
pf

<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 100 (major_axis) x 5 (minor_axis)
Items axis: df1 to df3
Major_axis axis: 2013-01-01 00:00:00 to 2013-04-10 00:00:00
Minor_axis axis: A to E

In [63]:
pf.loc[:,:,'F'] = pd.DataFrame(data, rng, cols)
pf

<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 100 (major_axis) x 6 (minor_axis)
Items axis: df1 to df3
Major_axis axis: 2013-01-01 00:00:00 to 2013-04-10 00:00:00
Minor_axis axis: A to F

## Добавление столбцов

Добавление столбцов и замена значений в них с помощью функции applymap:

In [64]:
df = pd.DataFrame({'AAA' : [1,2,1,3], 'BBB' : [1,1,2,2], 'CCC' : [2,1,3,1]})
source_cols = df.columns
new_cols = [str(x) + "_cat" for x in source_cols]
categories = {1 : 'Alpha', 2 : 'Beta', 3 : 'Charlie'}
df[new_cols] = df[source_cols].applymap(categories.get)
df

Unnamed: 0,AAA,BBB,CCC,AAA_cat,BBB_cat,CCC_cat
0,1,1,2,Alpha,Alpha,Beta
1,2,1,1,Beta,Alpha,Alpha
2,1,2,3,Alpha,Beta,Charlie
3,3,2,1,Charlie,Beta,Alpha


## Метод groupby

In [66]:
df = pd.DataFrame({'AAA' : [1,1,1,2,2,2,3,3], 'BBB' : [2,1,3,4,5,1,2,3]})
df

Unnamed: 0,AAA,BBB
0,1,2
1,1,1
2,1,3
3,2,4
4,2,5
5,2,1
6,3,2
7,3,3


Минимальные значения в колонке "BBB" для каждого из значений "AAA":

In [72]:
df.loc[df.groupby("AAA")["BBB"].idxmin()]

Unnamed: 0,AAA,BBB
1,1,1
5,2,1
6,3,2


То же самое, но другим способом:

In [78]:
df.sort("BBB").groupby("AAA", as_index=False).first()

Unnamed: 0,AAA,BBB
0,1,1
1,2,1
2,3,2


Обратите внимание, что здесь мы уже потеряли информацию об индексах строк, в которых достигался минимум.

## Multindexing

In [79]:
df = pd.DataFrame({'row' : [0,1,2],\
                   'One_X' : [1.1,1.1,1.1],\
                   'One_Y' : [1.2,1.2,1.2],\
                   'Two_X' : [1.11,1.11,1.11],\
                   'Two_Y' : [1.22,1.22,1.22]})

df

Unnamed: 0,One_X,One_Y,Two_X,Two_Y,row
0,1.1,1.2,1.11,1.22,0
1,1.1,1.2,1.11,1.22,1
2,1.1,1.2,1.11,1.22,2


In [None]:
df.set_index('row')