<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1.0.-Pandas---Первое-знакомство" data-toc-modified-id="1.0.-Pandas---Первое-знакомство-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>1.0. Pandas - Первое знакомство</a></span></li><li><span><a href="#НО" data-toc-modified-id="НО-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>НО</a></span></li><li><span><a href="#1.1.-Pandas-DataFrame" data-toc-modified-id="1.1.-Pandas-DataFrame-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>1.1. Pandas DataFrame</a></span></li><li><span><a href="#1.2.-Индексирование." data-toc-modified-id="1.2.-Индексирование.-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>1.2. Индексирование.</a></span></li><li><span><a href="#1.3.-Работа-со-столбцами." data-toc-modified-id="1.3.-Работа-со-столбцами.-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>1.3. Работа со столбцами.</a></span></li><li><span><a href="#1.4.-File-I/O." data-toc-modified-id="1.4.-File-I/O.-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>1.4. File I/O.</a></span></li></ul></div>

# 1.0. Pandas - Первое знакомство

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np

http://pandas.pydata.org/

Pandas - open-source  проект, предоставляющий средства для работы с данными в Питоне с использованием абстракций более высокого уровня, чем numpy.

В основе своей pandas полагается на структуры данных numpy, но вместе с тем предоставляет:

* различные типы данных в рамках одной структуры pandas.DataFrame;
* работу с пропущенными значениями;
* удобную работу с типом DateTime;
* набор методов для совместного использования нескольких массивов данных.

** Series **

Series - это массив размерности один, который может содержать данные различного типа, и 1:1 соответствие между данными и некоторой меткой, присвоенной каждому элементу.

In [141]:
series = pd.Series([-12, np.NAN, 1])

In [142]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

In [4]:
series.values

array([-12.,  nan,   1.])

In [143]:
series.index

RangeIndex(start=0, stop=3, step=1)

In [144]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

Мы можем создавать объекты, самостоятельно задавая индекс:

In [145]:
series2 = pd.Series([0, 1, 2], index=['a', 'b', 'c'], name='column')

In [146]:
series2.name

'column'

In [148]:
series2

a    0
b    1
c    2
Name: column, dtype: int64

Преимущества индексирования понятны - мы имеем быстрый доступ к элементам массива, при этом можем пользоваться всеми (практически) свойствами массивов numpy.

In [149]:
series[0]

-12.0

In [150]:
series2["a"]

0

In [152]:
series[0:2]

0   -12.0
1     NaN
dtype: float64

**Булево индексирование:**

In [153]:
series > 0

0    False
1    False
2     True
dtype: bool

In [154]:
series.values > 0

array([False, False,  True])

In [155]:
series[series > 0]

2    1.0
dtype: float64

In [160]:
0 in series

True

In [157]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

Конструктор принимет массив ранга один либо словарь. Ключи словаря используются как индекс (в отсортированном порядке):

In [161]:
pd.Series({'a': 1, 'c': 2, 'b': 3})

a    1
c    2
b    3
dtype: int64

In [162]:
pd.Series({'a': 1, 'c': 2, 'c': 10, 'b': 3})

a     1
c    10
b     3
dtype: int64

In [163]:
index = ['a_letter', 'b_letter', 'c_letter']

Если вызывается конструктор со словарем и парметром index = , то отсутствующие в словаре ключи получат NaN.

In [167]:
pd.Series({'a_letter': 1, 'b_letter': 2, 'c': 3}, index=index)

a_letter    1.0
b_letter    2.0
c_letter    NaN
dtype: float64

In [168]:
pd.Series([1, 2, 3], index=index)

a_letter    1
b_letter    2
c_letter    3
dtype: int64

Операции с Series напоминают операции с ndarray:

In [169]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

In [170]:
series[1] = 100

In [171]:
series

0    -12.0
1    100.0
2      1.0
dtype: float64

In [172]:
series + series

0    -24.0
1    200.0
2      2.0
dtype: float64

In [173]:
series * series

0      144.0
1    10000.0
2        1.0
dtype: float64

In [174]:
np.exp(series.astype(int))

0    6.144212e-06
1    2.688117e+43
2    2.718282e+00
dtype: float64

Самому Series и индексу можно присвоить атрибут имя:

In [175]:
series.name = 'some_test_series'

In [176]:
series

0    -12.0
1    100.0
2      1.0
Name: some_test_series, dtype: float64

In [177]:
series.index.name = 'some_test_index'

In [178]:
series

some_test_index
0    -12.0
1    100.0
2      1.0
Name: some_test_series, dtype: float64

In [179]:
series.index

RangeIndex(start=0, stop=3, step=1, name='some_test_index')

Важно помнить, как pandas обращается с несовпадающими индексами:

In [180]:
first_series = pd.Series({'a': 1, 'b': 2, 'c': 2})
second_series = pd.Series({'a': 1, 'b': 2, 'd': -1})

In [181]:
first_series + second_series

a    2.0
b    4.0
c    NaN
d    NaN
dtype: float64

In [182]:
first_series + second_series

a    2.0
b    4.0
c    NaN
d    NaN
dtype: float64

Индекс всегда можно поменять:

In [183]:
series

some_test_index
0    -12.0
1    100.0
2      1.0
Name: some_test_series, dtype: float64

In [184]:
series.index = ['a_letter', 'b_letter', 'c_letter']

In [186]:
series

a_letter    -12.0
b_letter    100.0
c_letter      1.0
Name: some_test_series, dtype: float64

In [195]:
series.loc['a_letter':"b_letter"]

a_letter    200.0
b_letter    100.0
Name: some_test_series, dtype: float64

In [188]:
series.a_letter

-12.0

In [194]:
series.iloc[0:2]

a_letter    200.0
b_letter    100.0
Name: some_test_series, dtype: float64

In [190]:
series[0:2]

a_letter    -12.0
b_letter    100.0
Name: some_test_series, dtype: float64

In [191]:
series['a_letter'] = 200

In [192]:
series

a_letter    200.0
b_letter    100.0
c_letter      1.0
Name: some_test_series, dtype: float64

# 1.1. Pandas DataFrame

Представим себе структуру, которая могла бы содержать несколько объекто типа Series, объединенных общим индексом. Тогда бы такая структура являлась pandas.DataFrame - табличным форматом данных, снабженным 2 типами индексов - строчным и колоночным.

In [196]:
df = pd.DataFrame({'A': [20, 10, 30], 'B': np.random.randn(3),
                   'C': ['A', 'B', 'C']}, index=['a', 'b', 'c'])

In [197]:
df

Unnamed: 0,A,B,C
a,20,-1.886306,A
b,10,0.2368,B
c,30,-0.677667,C


Выбор столбца ничем не отличается от стандартного \_\_getitem\_\_ синтаксиса:

In [203]:
df['A']

a    20
b    10
c    30
Name: A, dtype: int64

In [205]:
df[['A', 'C']]

Unnamed: 0,A,C
a,20,A
b,10,B
c,30,C


In [201]:
df.A.values

array([20, 10, 30])

Возможные аргументы для конструктора:

* массив ранга 2 (индексы для столбцов и строк передаются отдельным аргументом либо будет использован xrange);
* словарь массивов ранга 1 (ключ - имя стобца, данные - элементы последовательности);
* словарь объектов pd.Series;
* словарь словарей (ключи внутреннего словаря - имена столбцов), ключи внешнего словаря - индекс обеъкта;

Выбор строки:

In [206]:
df.loc[['a', 'b']]

Unnamed: 0,A,B,C
a,20,-1.886306,A
b,10,0.2368,B


--  N: Обратите внимание - slice подобного типа включает в себя крайний объект "справа".

In [207]:
df.iloc[0:2]

Unnamed: 0,A,B,C
a,20,-1.886306,A
b,10,0.2368,B


--  N: А такой - не включает.

In [209]:
df.loc['a':'b']

Unnamed: 0,A,B,C
a,20,-1.886306,A
b,10,0.2368,B


In [72]:
df.loc['a':'b', ['A', 'C']]

Unnamed: 0,A,C
a,20,A
b,10,B


In [73]:
df.iloc[0:2, [0, 2]]

Unnamed: 0,A,C
a,20,A
b,10,B


** Операции с dataframe **

In [210]:
df

Unnamed: 0,A,B,C
a,20,-1.886306,A
b,10,0.2368,B
c,30,-0.677667,C


In [211]:
df[['A', 'B']] + 5

Unnamed: 0,A,B
a,25,3.113694
b,15,5.2368
c,35,4.322333


In [212]:
df[['A', 'C']] + df[['A', 'C']]

Unnamed: 0,A,C
a,40,AA
b,20,BB
c,60,CC


Теперь внимание:

In [213]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [6, 2, 4], 'B': [9, 1, 4]}, index=[2, 0, 1])

In [214]:
df1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [215]:
df2

Unnamed: 0,A,B
2,6,9
0,2,1
1,4,4


In [216]:
df1 + df2

Unnamed: 0,A,B
0,3,5
1,6,9
2,9,15


In [217]:
df1.values

array([[1, 4],
       [2, 5],
       [3, 6]])

In [218]:
df2.values

array([[6, 9],
       [2, 1],
       [4, 4]])

In [81]:
df1.values + df2.values

array([[ 7, 13],
       [ 4,  6],
       [ 7, 10]])

Очень хорошо!

In [219]:
df3 = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
df3

Unnamed: 0,A,B,C
0,-0.68308,-1.329618,-1.282403
1,0.240677,-1.523374,1.279971
2,-1.308958,-1.665757,-0.669846
3,0.468937,-1.239525,0.597175
4,-0.6474,-0.073986,1.133281


In [221]:
df1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [139]:
df1 + df3

Unnamed: 0,A,B,C
0,0.772886,4.165272,
1,2.180823,4.943122,
2,4.226304,5.899445,
3,,,
4,,,


После примера с Series - такое поведение как раз и ожидалось.

Тем не менее, бывают случаи, когда нам требуется чем - либо заполнить места, в которых индекс не пересекается. В таких случаях удобно использовать параметр fill_value.

In [86]:
df1.add(df3, fill_value=0)

Unnamed: 0,A,B,C
0,-0.223216,3.12337,-0.668702
1,3.379786,4.863185,-0.732864
2,2.222099,6.535754,0.322224
3,1.017367,0.739259,-0.824981
4,0.414672,1.328048,-1.873335


Таких "гибких" арифметических операций 4:

* df.add;
* df.sub;
* df.div;
* df.mul.

Как наследие массива из numpy, мы можем использовать broadcasting:

In [222]:
df = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['U', 'O', 'T', 'Z'])

In [223]:
df

Unnamed: 0,b,d,e
U,0.0,1.0,2.0
O,3.0,4.0,5.0
T,6.0,7.0,8.0
Z,9.0,10.0,11.0


In [224]:
series = df.iloc[0]

In [225]:
series

b    0.0
d    1.0
e    2.0
Name: U, dtype: float64

In [227]:
df

Unnamed: 0,b,d,e
U,0.0,1.0,2.0
O,3.0,4.0,5.0
T,6.0,7.0,8.0
Z,9.0,10.0,11.0


In [228]:
series

b    0.0
d    1.0
e    2.0
Name: U, dtype: float64

In [226]:
df - series

Unnamed: 0,b,d,e
U,0.0,0.0,0.0
O,3.0,3.0,3.0
T,6.0,6.0,6.0
Z,9.0,9.0,9.0


Совпадение считается по индексу. Если индексы не совпадают, то операция будет использовать объединения индексов:

In [234]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [235]:
series2

b    0
e    1
f    2
dtype: int64

In [236]:
df

Unnamed: 0,b,d,e
U,0.0,1.0,2.0
O,3.0,4.0,5.0
T,6.0,7.0,8.0
Z,9.0,10.0,11.0


In [232]:
df + series2

Unnamed: 0,b,d,e,f
U,0.0,,3.0,
O,3.0,,6.0,
T,6.0,,9.0,
Z,9.0,,12.0,


Если хочется broadcast по столбцам, то нужно использовать один из 4 методов, которые мы поисали ранее:

In [237]:
series3 = df['d']

In [238]:
series3

U     1.0
O     4.0
T     7.0
Z    10.0
Name: d, dtype: float64

In [239]:
df

Unnamed: 0,b,d,e
U,0.0,1.0,2.0
O,3.0,4.0,5.0
T,6.0,7.0,8.0
Z,9.0,10.0,11.0


In [240]:
series3

U     1.0
O     4.0
T     7.0
Z    10.0
Name: d, dtype: float64

In [241]:
df.sub(series3, axis=0)

Unnamed: 0,b,d,e
U,-1.0,0.0,1.0
O,-1.0,0.0,1.0
T,-1.0,0.0,1.0
Z,-1.0,0.0,1.0


In [242]:
df.sub?

# 1.2. Индексирование.

Для индекса pandas имеет отдельный тип объекта - index object.

In [243]:
s1 = pd.Series(range(3), index=['a', 'b', 'c'])

In [244]:
s1

a    0
b    1
c    2
dtype: int64

In [245]:
index = s1.index

In [246]:
index

Index(['a', 'b', 'c'], dtype='object')

In [247]:
index[0]

'a'

In [248]:
s2 = pd.Series([1.5, -2.5, 0], index=index)

In [249]:
s2.index is s1.index

True

In [250]:
index

Index(['a', 'b', 'c'], dtype='object')

** Реиндексирование **

In [251]:
ser3 = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [252]:
ser3

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [253]:
ser4 = ser3.reindex(['a', 'b', 'c', 'd', 'e'])

In [254]:
ser4

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

Столь же просто менять индекс объекта DataFrame:

In [255]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'], 
                     columns=['Ohio', 'Texas', 'California'])

In [256]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [257]:
frame2 = frame.reindex(index=['a', 'b', 'c', 'd'])

In [258]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [259]:
states = ['Texas', 'Utah', 'California']

In [260]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [261]:
ser3[ser3 > 0]

d    4.5
b    7.2
c    3.6
dtype: float64

In [262]:
frame.rename(columns={'Texas': "Moscow"})

Unnamed: 0,Ohio,Moscow,California
a,0,1,2
c,3,4,5
d,6,7,8


# 1.3. Работа со столбцами.

In [263]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
                  index=['F', 'S', 'T', 'R'])

In [264]:
frame

Unnamed: 0,b,d,e
F,-0.680899,0.466442,0.146838
S,-1.268751,-1.576273,0.479964
T,0.013711,-1.584746,0.610905
R,-1.253462,0.209575,1.22868


Как вы уже поянли, никаких проблем с функцией, которая работает в numpy поэлементно, у нас не возникнет:

In [266]:
np.power(frame, 2)

Unnamed: 0,b,d,e
F,0.463624,0.217568,0.021561
S,1.609729,2.484637,0.230365
T,0.000188,2.511419,0.373205
R,1.571167,0.043922,1.509655


Однако, чаще нам нужно применить функцию к какому либо столбцу - например, почитать абсолютное значение, сконвертировать из ts в datetime итд.

In [127]:
frame

Unnamed: 0,b,d,e
F,-0.67753,0.062772,1.170796
S,-0.329908,1.127997,0.571195
T,0.960325,0.303013,1.818009
R,1.744928,0.742347,-1.567006


In [128]:
new_format = lambda x: '%.2f' % x

In [129]:
frame.applymap(new_format)

Unnamed: 0,b,d,e
F,-0.68,0.06,1.17
S,-0.33,1.13,0.57
T,0.96,0.3,1.82
R,1.74,0.74,-1.57


Для Series метод назывется map().

In [271]:
frame['e'] = frame['e'].map(lambda x: x ** 2) 

In [272]:
frame['e'] = frame['e'] ** 2

In [273]:
frame['e'] = frame['e'].apply(lambda x: x ** 2) 

Чтобы получить доступ к списку названий, достаточно обратиться к df.columns:

In [274]:
frame.columns

Index(['b', 'd', 'e'], dtype='object')

Также полезно следующее:

In [275]:
df.dtypes

b    float64
d    float64
e    float64
dtype: object

Для сортировки по индексу стоит вызвать df.sort_index(), который возвращает копию исходного объекта:

In [276]:
frame.sort_index()

Unnamed: 0,b,d,e
F,-0.680899,0.466442,4.67105e-14
R,-1.253462,0.209575,26.9788
S,-1.268751,-1.576273,7.93116e-06
T,0.013711,-1.584746,0.0003763375


In [278]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,e,d,b
F,4.67105e-14,0.466442,-0.680899
S,7.93116e-06,-1.576273,-1.268751
T,0.0003763375,-1.584746,0.013711
R,26.9788,0.209575,-1.253462


Чтобы отсортировать по значению столбцов:

In [137]:
frame.sort_index(by=['d', 'b'])

  """Entry point for launching an IPython kernel.


Unnamed: 0,b,d,e
F,-0.67753,0.062772,1.878992
T,0.960325,0.303013,10.924071
R,1.744928,0.742347,6.029517
S,-0.329908,1.127997,0.106448


In [138]:
frame.sort_values(by=['d', 'b'])

Unnamed: 0,b,d,e
F,-0.67753,0.062772,1.878992
T,0.960325,0.303013,10.924071
R,1.744928,0.742347,6.029517
S,-0.329908,1.127997,0.106448


Также значениям можно присвоить ранг:

In [279]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, F to R
Data columns (total 3 columns):
b    4 non-null float64
d    4 non-null float64
e    4 non-null float64
dtypes: float64(3)
memory usage: 128.0+ bytes


In [280]:
frame.describe()

Unnamed: 0,b,d,e
count,4.0,4.0,4.0
mean,-0.79735,-0.621251,6.744797
std,0.60598,1.112615,13.48934
min,-1.268751,-1.584746,4.67105e-14
25%,-1.257284,-1.578391,5.94837e-06
50%,-0.967181,-0.683349,0.0001921343
75%,-0.507247,0.273791,6.744983
max,0.013711,0.466442,26.9788


# 1.4. File I/O.

http://pandas.pydata.org/pandas-docs/stable/io.html

Как видно из оффициальной документации (выше), в качестве входного формата могут использоваться следующие:
* read_csv
* read_excel
* read_hdf
* read_sql
* read_json
* read_msgpack (experimental)
* read_html
* read_gbq (experimental)
* read_stata
* read_sas
* read_clipboard
* read_pickle

Каждый из них снабжен "зеркальным" методом "to".

Думаю, что чаще всего вас придется пользоваться методом "read_csv". Подробная сигнатура:

In [119]:
pd.read_csv?

In [289]:
frame.to_csv("frame.csv.gz", sep="\t", encoding="utf-8", compression="gzip")

In [285]:
!ls

Black_man.txt  HW1.ipynb	 numpy.ipynb   random.csv
frame.csv      matplotlib.ipynb  pandas.ipynb  random.npy


In [290]:
!zcat frame.csv.gz

	b	d	e
F	-0.6808991844832817	0.46644157833197875	4.6710501201415635e-14
S	-1.268750973997393	-1.576273083581856	7.931160081953773e-06
T	0.013710528677311483	-1.5847456475104247	0.00037633747171112987
R	-1.253461852098344	0.20957464508696924	26.978802940720843


In [293]:
frame.head(1)

Unnamed: 0,b,d,e
F,-0.680899,0.466442,4.67105e-14


In [295]:
frame.columns

Index(['b', 'd', 'e'], dtype='object')

In [296]:
frame

Unnamed: 0,b,d,e
F,-0.680899,0.466442,4.67105e-14
S,-1.268751,-1.576273,7.93116e-06
T,0.013711,-1.584746,0.0003763375
R,-1.253462,0.209575,26.9788


In [297]:
frame.get_dtype_counts()

  """Entry point for launching an IPython kernel.


float64    3
dtype: int64

In [298]:
frame["b"].value_counts()

-1.253462    1
 0.013711    1
-1.268751    1
-0.680899    1
Name: b, dtype: int64

In [299]:
frame.values

array([[-6.80899184e-01,  4.66441578e-01,  4.67105012e-14],
       [-1.26875097e+00, -1.57627308e+00,  7.93116008e-06],
       [ 1.37105287e-02, -1.58474565e+00,  3.76337472e-04],
       [-1.25346185e+00,  2.09574645e-01,  2.69788029e+01]])