<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1.0.-Pandas---Первое-знакомство" data-toc-modified-id="1.0.-Pandas---Первое-знакомство-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>1.0. Pandas - Первое знакомство</a></span></li><li><span><a href="#НО" data-toc-modified-id="НО-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>НО</a></span></li><li><span><a href="#1.1.-Pandas-DataFrame" data-toc-modified-id="1.1.-Pandas-DataFrame-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>1.1. Pandas DataFrame</a></span></li><li><span><a href="#1.2.-Индексирование." data-toc-modified-id="1.2.-Индексирование.-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>1.2. Индексирование.</a></span></li><li><span><a href="#1.3.-Работа-со-столбцами." data-toc-modified-id="1.3.-Работа-со-столбцами.-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>1.3. Работа со столбцами.</a></span></li><li><span><a href="#1.4.-File-I/O." data-toc-modified-id="1.4.-File-I/O.-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>1.4. File I/O.</a></span></li></ul></div>

# 1.0. Pandas - Первое знакомство

In [2]:
%matplotlib inline
import pandas as pd
import numpy as np

http://pandas.pydata.org/

Pandas - open-source  проект, предоставляющий средства для работы с данными в Питоне с использованием абстракций более высокого уровня, чем numpy.

В основе своей pandas полагается на структуры данных numpy, но вместе с тем предоставляет:

* различные типы данных в рамках одной структуры pandas.DataFrame;
* работу с пропущенными значениями;
* удобную работу с типом DateTime;
* набор методов для совместного использования нескольких массивов данных.

** Series **

Series - это массив размерности один, который может содержать данные различного типа, и 1:1 соответствие между данными и некоторой меткой, присвоенной каждому элементу.

In [3]:
series = pd.Series([-12, np.NaN, 1])

In [4]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

In [5]:
series.values

array([-12.,  nan,   1.])

In [6]:
series.index

RangeIndex(start=0, stop=3, step=1)

In [7]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

Мы можем создавать объекты, самостоятельно задавая индекс:

In [8]:
series2 = pd.Series([0, 1, 2], index=['a', 'b', 'c'], name='column')

In [9]:
series2.name

'column'

In [10]:
series2

a    0
b    1
c    2
Name: column, dtype: int64

In [11]:
series2.index

Index(['a', 'b', 'c'], dtype='object')

Преимущества индексирования понятны - мы имеем быстрый доступ к элементам массива, при этом можем пользоваться всеми (практически) свойствами массивов numpy.

In [12]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

In [13]:
series2

a    0
b    1
c    2
Name: column, dtype: int64

In [14]:
series[0]

-12.0

In [15]:
series2["c"]

2

In [16]:
series[0:2]

0   -12.0
1     NaN
dtype: float64

**Булево индексирование:**

In [17]:
series > 0

0    False
1    False
2     True
dtype: bool

In [18]:
series.values > 0

array([False, False,  True])

In [19]:
series[series > 0]

2    1.0
dtype: float64

In [21]:
1 in series

True

In [None]:
series

Конструктор принимет массив ранга один либо словарь. Ключи словаря используются как индекс (в отсортированном порядке):

In [22]:
pd.Series({'a': 1, 'c': 2, 'b': 3})

a    1
c    2
b    3
dtype: int64

In [23]:
pd.Series({'a': 1, 'c': 2, 'c': 10, 'b': 3})

a     1
c    10
b     3
dtype: int64

In [24]:
index = ['a_letter', 'b_letter', 'c_letter', 'c']

Если вызывается конструктор со словарем и парметром index = , то отсутствующие в словаре ключи получат NaN.

In [25]:
pd.Series({'a_letter': 1, 'b_letter': 2, 'c': 3}, index=index)

a_letter    1.0
b_letter    2.0
c_letter    NaN
c           3.0
dtype: float64

In [27]:
pd.Series([1, 2, 3], index=index[:3])

a_letter    1
b_letter    2
c_letter    3
dtype: int64

Операции с Series напоминают операции с ndarray:

In [28]:
series

0   -12.0
1     NaN
2     1.0
dtype: float64

In [29]:
series[1] = 100

In [30]:
series

0    -12.0
1    100.0
2      1.0
dtype: float64

In [31]:
series + series

0    -24.0
1    200.0
2      2.0
dtype: float64

In [32]:
series * series

0      144.0
1    10000.0
2        1.0
dtype: float64

In [33]:
np.exp(series.astype(int))

0    6.144212e-06
1    2.688117e+43
2    2.718282e+00
dtype: float64

Самому Series и индексу можно присвоить атрибут имя:

In [34]:
series.name = 'some_test_series'

In [35]:
series

0    -12.0
1    100.0
2      1.0
Name: some_test_series, dtype: float64

In [36]:
series.index.name = 'some_test_index'

In [37]:
series

some_test_index
0    -12.0
1    100.0
2      1.0
Name: some_test_series, dtype: float64

In [38]:
series.index

RangeIndex(start=0, stop=3, step=1, name='some_test_index')

Важно помнить, как pandas обращается с несовпадающими индексами:

In [39]:
first_series = pd.Series({'a': 1, 'b': 2, 'c': 2})
second_series = pd.Series({'a': 1, 'b': 3, 'd': -1})

In [41]:
first_series + second_series

a    2.0
b    5.0
c    NaN
d    NaN
dtype: float64

In [43]:
a = first_series / second_series

Индекс всегда можно поменять:

In [46]:
series

some_test_index
0    -12.0
1    100.0
2      1.0
Name: some_test_series, dtype: float64

In [47]:
series.index = ['a_letter', 'b_letter', 'c_letter']

In [48]:
series

a_letter    -12.0
b_letter    100.0
c_letter      1.0
Name: some_test_series, dtype: float64

In [49]:
series.loc['a_letter':"c_letter"]

a_letter    -12.0
b_letter    100.0
c_letter      1.0
Name: some_test_series, dtype: float64

In [51]:
series.iloc[0:2]

a_letter    -12.0
b_letter    100.0
Name: some_test_series, dtype: float64

In [52]:
series.loc['a_letter':'b_letter']

a_letter    -12.0
b_letter    100.0
Name: some_test_series, dtype: float64

In [53]:
series[0:1]

a_letter   -12.0
Name: some_test_series, dtype: float64

In [54]:
series['a_letter'] = 200

In [55]:
series

a_letter    200.0
b_letter    100.0
c_letter      1.0
Name: some_test_series, dtype: float64

# 1.1. Pandas DataFrame

Представим себе структуру, которая могла бы содержать несколько объекто типа Series, объединенных общим индексом. Тогда бы такая структура являлась pandas.DataFrame - табличным форматом данных, снабженным 2 типами индексов - строчным и колоночным.

In [None]:
df = pd.DataFrame({'A': [20, 10, 30], 'B': np.random.randn(3),
                   'C': ['A', 'B', 'C']}, index=['a', 'b', 'c'])

In [None]:
df

In [None]:
df.values

In [None]:
df.info()

Выбор столбца ничем не отличается от стандартного \_\_getitem\_\_ синтаксиса:

In [None]:
df['A']

In [None]:
df[['A', 'C']]

In [None]:
df.C

Возможные аргументы для конструктора:

* массив ранга 2 (индексы для столбцов и строк передаются отдельным аргументом либо будет использован xrange);
* словарь массивов ранга 1 (ключ - имя стобца, данные - элементы последовательности);
* словарь объектов pd.Series;
* словарь словарей (ключи внутреннего словаря - имена столбцов), ключи внешнего словаря - индекс обеъкта;

Выбор строки:

In [None]:
df.loc[['a', 'b']]

--  N: Обратите внимание - slice подобного типа включает в себя крайний объект "справа".

In [None]:
df.loc['a':'b']

--  N: А такой - не включает.

In [None]:
df.iloc[0:1]

In [None]:
df.loc['a':'b', ['A', 'C']]

In [None]:
df.iloc[0:2, [0, 2]]

** Операции с dataframe **

In [None]:
df

In [None]:
df[['A', 'B']] + 5

In [None]:
df[['A', 'C']] + df[['A', 'C']]

Теперь внимание:

In [None]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [6, 2, 4], 'B': [9, 1, 4]}, index=[2, 0, 1])

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

In [None]:
df1.values

In [None]:
df2.values

In [None]:
df1.values + df2.values

Очень хорошо!

In [None]:
df3 = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
df3

In [None]:
df1

In [None]:
df1 + df3

После примера с Series - такое поведение как раз и ожидалось.

Тем не менее, бывают случаи, когда нам требуется чем - либо заполнить места, в которых индекс не пересекается. В таких случаях удобно использовать параметр fill_value.

In [None]:
df1.add(df3, fill_value=0)

Таких "гибких" арифметических операций 4:

* df.add;
* df.sub;
* df.div;
* df.mul.

Как наследие массива из numpy, мы можем использовать broadcasting:

In [None]:
df = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['U', 'O', 'T', 'Z'])

In [None]:
df

In [None]:
series = df.iloc[0]

In [None]:
series

In [None]:
df

In [None]:
series

In [None]:
df - series

Совпадение считается по индексу. Если индексы не совпадают, то операция будет использовать объединения индексов:

In [None]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [None]:
series2

In [None]:
df

In [None]:
df + series2

Если хочется broadcast по столбцам, то нужно использовать один из 4 методов, которые мы поисали ранее:

In [None]:
series3 = df['d']

In [None]:
series3

In [None]:
df

In [None]:
series3

In [None]:
df.sub(series3, axis=0)

In [None]:
df.sub?

# 1.2. Индексирование.

Для индекса pandas имеет отдельный тип объекта - index object.

In [None]:
s1 = pd.Series(range(3), index=['a', 'b', 'c'])

In [None]:
s1

In [None]:
index = s1.index

In [None]:
index

In [None]:
index[0]

In [None]:
s2 = pd.Series([1.5, -2.5, 0], index=index)

In [None]:
s2.index is s1.index

In [None]:
index

** Реиндексирование **

In [None]:
ser3 = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [None]:
ser3

In [None]:
ser4 = ser3.reindex(['a', 'b', 'c', 'd', 'e'])

In [None]:
ser4

Столь же просто менять индекс объекта DataFrame:

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'], 
                     columns=['Ohio', 'Texas', 'California'])

In [None]:
frame

In [None]:
frame2 = frame.reindex(index=['a', 'b', 'c', 'd'])

In [None]:
frame2

In [None]:
states = ['Texas', 'Utah', 'California']

In [None]:
frame.reindex(columns=states)

In [None]:
ser3[ser3 > 0]

In [None]:
frame.rename(columns={'Texas': "Moscow"})

# 1.3. Работа со столбцами.

In [56]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
                  index=['F', 'S', 'T', 'R'])

In [57]:
frame

Unnamed: 0,b,d,e
F,-0.332022,0.275138,-0.191959
S,-0.083001,1.397656,1.056165
T,1.29686,0.021819,0.208576
R,0.273216,-0.514319,0.039102


Как вы уже поняли, никаких проблем с функцией, которая работает в numpy поэлементно, у нас не возникнет:

In [58]:
np.power(frame, 2)

Unnamed: 0,b,d,e
F,0.110239,0.075701,0.036848
S,0.006889,1.953442,1.115484
T,1.681846,0.000476,0.043504
R,0.074647,0.264524,0.001529


Однако, чаще нам нужно применить функцию к какому либо столбцу - например, почитать абсолютное значение, сконвертировать из ts в datetime итд.

In [59]:
frame

Unnamed: 0,b,d,e
F,-0.332022,0.275138,-0.191959
S,-0.083001,1.397656,1.056165
T,1.29686,0.021819,0.208576
R,0.273216,-0.514319,0.039102


In [60]:
new_format = lambda x: '%.2f' % x

In [61]:
frame.applymap(new_format)

Unnamed: 0,b,d,e
F,-0.33,0.28,-0.19
S,-0.08,1.4,1.06
T,1.3,0.02,0.21
R,0.27,-0.51,0.04


Для Series метод назывется map().

In [62]:
frame['e'] = frame['e'].map(lambda x: x ** 2) 

In [63]:
frame['e'] = frame['e'] ** 2

In [64]:
frame["e"]

F    0.001358
S    1.244305
T    0.001893
R    0.000002
Name: e, dtype: float64

In [65]:
frame['e'] = frame['e'].apply(lambda x: x ** 2) 

In [66]:
frame["e"]

F    1.843617e-06
S    1.548295e+00
T    3.581951e-06
R    5.465148e-12
Name: e, dtype: float64

Чтобы получить доступ к списку названий, достаточно обратиться к df.columns:

In [None]:
frame.columns

Также полезно следующее:

In [None]:
df.dtypes

Для сортировки по индексу стоит вызвать df.sort_index(), который возвращает копию исходного объекта:

In [None]:
frame.sort_index()

In [None]:
frame.sort_index(axis=1, ascending=False)

Чтобы отсортировать по значению столбцов:

In [None]:
frame.sort_index(by=['d', 'b'])

In [None]:
frame.sort_values(by=['d', 'b'])

Также значениям можно присвоить ранг:

In [None]:
frame.info()

In [None]:
frame.describe()

# 1.4. File I/O.

http://pandas.pydata.org/pandas-docs/stable/io.html

Как видно из оффициальной документации (выше), в качестве входного формата могут использоваться следующие:
* read_csv
* read_excel
* read_hdf
* read_sql
* read_json
* read_msgpack (experimental)
* read_html
* read_gbq (experimental)
* read_stata
* read_sas
* read_clipboard
* read_pickle

Каждый из них снабжен "зеркальным" методом "to".

Думаю, что чаще всего вас придется пользоваться методом "read_csv". Подробная сигнатура:

In [67]:
pd.read_csv?

In [None]:
pd.read_excel()

In [68]:
frame

Unnamed: 0,b,d,e
F,-0.332022,0.275138,1.843617e-06
S,-0.083001,1.397656,1.548295
T,1.29686,0.021819,3.581951e-06
R,0.273216,-0.514319,5.465148e-12


In [69]:
ls

Black_man.txt    matplotlib.ipynb  random1234.npy  random.npy
frame123.csv.gz  numpy.ipynb       random123.npy   random_txt.csv
HW1.ipynb        pandas.ipynb      random.csv


In [70]:
frame.to_csv("frame1234.csv.gz", sep="\t", encoding="utf-8", compression="gzip")

In [74]:
frame = pd.read_csv("frame1234.csv.gz", sep="\t")

In [72]:
frame

Unnamed: 0.1,Unnamed: 0,b,d,e
0,F,-0.332022,0.275138,1.843617e-06
1,S,-0.083001,1.397656,1.548295
2,T,1.29686,0.021819,3.581951e-06
3,R,0.273216,-0.514319,5.465148e-12


In [None]:
!ls

In [None]:
!zcat frame123.csv.gz

In [None]:
frame.head(1)

In [None]:
frame.columns

In [None]:
frame

In [None]:
frame.get_dtype_counts()

In [None]:
frame["b"].value_counts()

In [None]:
frame.values