# pandas


Пакет для статистической обработки данных, по функциональности близкий к R.

In [None]:
import numpy as np
import pandas as pd

## Series

Одномерный набор данных. Отсутствующий данные записываются как `np.nan` (в этот день термометр сломался или метеоролог был пьян); они не участвуют в вычислении средних, среднеквадратичных отклонений и т.д.

In [None]:
l=[1,3,5,np.nan,6,8]
s=pd.Series(l)
s


Основная информация о наборе данных: среднее, среднеквадратичное отклонение, минимум, максимум, медиана (которая отличается от среднего для несимметричных распределений).

In [None]:
s.describe()

Обычная индексация.

In [None]:
s[2]

In [None]:
s[2]=7
s

In [None]:
s[2:5]

In [None]:
s1=s[1:]
s1

In [None]:
s2=s[:-1]
s2


В сумме `s1+s2` складываются данные с одинаковыми индексами. Поскольку в `s1` нет данного и индексом 0, а в `s2` - с индексом 5, в `s1+s2` в соответствующих позициях будет `NaN`.

In [None]:
s1+s2


К наборам данных можно применять функции из `numpy`.

In [None]:
np.exp(s)

При создании набора данных s мы не указали, что будет играть роль индекса. По умолчанию это последовательность целых чисел 0, 1, 2, ...

In [None]:
s.index


Но можно создавать наборы данных с индексом, заданным списком.

In [None]:
i=list('abcdef')
i

In [None]:
s=pd.Series(l,index=i)
s

In [None]:
s['c']

Если индекс - строка, то вместо s['c'] можно писать s.c.

In [None]:
s.c

Набор данных можно создать из словаря.

In [None]:
s=pd.Series({'a':1,'b':2,'c':0})
s


Можно отсортировать набор данных.

In [None]:
s.sort_values()

Роль индекса может играть, скажем, последовательность дат (или времён измерения и т.д.).

In [None]:
d=pd.date_range('20160101',periods=10)
d

In [None]:
s=pd.Series(np.random.normal(size=10),index=d)
s

Операции сравнения возвращают наборы булевых данных.

In [None]:
s>0

Если такой булев набор использовать для индексации, получится поднабор только из тех данных, для которых условие есть True.

In [None]:
s[s>0]

Кумулятивные максимумы - от первого элемента до текущего.

In [None]:
s.cummax()


Кумулятивные суммы.

In [None]:
s=s.cumsum()
s


Построим график.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.plot(s)

## DataFrame

Двумерная таблица данных. Имеет индекс и набор столбцов (возможно, имеющих разные типы). Таблицу можно построить, например, из словаря, значениями в котором являются одномерные наборы данных.

In [None]:
d={'one':pd.Series([1,2,3],index=['a','b','c']),
   'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df=pd.DataFrame(d)
df

In [None]:
df.index

In [None]:
df.columns

Если в качестве индекса указать имя столбца, получится одномерный набор данных.

In [None]:
df['one']

In [None]:
df.one

In [None]:
df['one']['c']


Однако если указать диапазон индексов, то это означает диапазон строк. Причём последняя строка включается в таблицу.

In [None]:
df['b':'d']


Диапазон целых чисел даёт диапазон строк с такими номерами, не включая последнюю строку (как обычно при индексировании списков). Всё это кажется довольно нелогичным.

In [None]:
df[1:3]


Логичнее работает атрибут `loc`: первая позиция - всегда индекс строки, а вторая - столбца.

In [None]:
df.loc['b']

In [None]:
df.loc['b','one']

In [None]:
df.loc['a':'b','one']

In [None]:
df.loc['a':'b',:]

In [None]:
df.loc[:,'one']

К таблице можно добавлять новые столбцы.

In [None]:
df['three']=df['one']*df['two']
df['flag']=df['two']>2
df

Также можно удалять имеющиеся.

In [None]:
del df['two']
df['foo']=0.
df


Добавим копию столбца `one`, в которую входят только строки до второй.

In [None]:
df['one_tr']=df['one'][:2]
df

In [None]:
df=df.loc[:,['one','one_tr']]
df

Можно объединять таблицы по вертикали и по горизонтали.

In [None]:
df2=pd.DataFrame({'one':{'e':0,'f':1},'one_tr':{'e':2}})
df2

In [None]:
pd.concat([df,df2])

In [None]:
df2=pd.DataFrame({'two':{'a':0,'b':1},'three':{'c':2,'d':3}})
df2

In [None]:
pd.concat([df,df2],axis=1)


Создадим таблицу из массива случайных чисел.

In [None]:
df=pd.DataFrame(np.random.randn(10,4),
                columns=['A','B','C','D'])
df

In [None]:
df2=pd.DataFrame(np.random.randn(7,3),columns=['A','B','C'])
df+df2

In [None]:
2*df+3

In [None]:
np.sin(df)

In [None]:
df.describe()

In [None]:
df.sort_values(by='B')

Атрибут iloc подобен loc: первый индекс - номер строки, второй - номер столбца. Это целые числа, конец диапазона на включается (как обычно в питоне).

In [None]:
df.iloc[2]

In [None]:
df.iloc[1:3]

In [None]:
df.iloc[1:3,0:2]

кумулятивные суммы

In [None]:
cs=df.cumsum()
cs

In [None]:
plt.plot(cs)