# 1.0. Pandas - Первое знакомство

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np

http://pandas.pydata.org/

Pandas - open-source  проект, предоставляющий средства для работы с данными в Питоне с использованием абстракций более высокого уровня, чем numpy.

В основе своей pandas полагается на структуры данных numpy, но вместе с тем предоставляет:

* различные типы данных в рамках одной структуры pandas.DataFrame;
* работу с пропущенными значениями;
* удобную работу с типом DateTime;
* набор методов для совместного использования нескольких массивов данных.

** Series **

Series - это массив размерности один, который может содержать данные различного типа, и 1:1 соответствие между данными и некоторой меткой, присвоенной каждому элементу.

In [2]:
series = pd.Series([-12, 'Nan', 1])

In [3]:
series.values

array([-12, 'Nan', 1], dtype=object)

In [4]:
series.index

RangeIndex(start=0, stop=3, step=1)

In [5]:
series

0    -12
1    Nan
2      1
dtype: object

Мы можем создавать объекты, самостоятельно задавая индекс:

In [6]:
series2 = pd.Series([0,1,2], index=['a', 'b', 'c'])

Преимущества индексирования понятны - мы имеем быстрый доступ к элементам массива, при этом можем пользоваться всеми (практически) свойствами массивов numpy.

In [7]:
series[0]

-12

In [8]:
series[0:2]

0    -12
1    Nan
dtype: object

Обратите внимание:

In [9]:
series[range(2,4)]

2      1
3    NaN
dtype: object

In [10]:
series[range(2,5)]

2      1
3    NaN
4    NaN
dtype: object

но:

In [11]:
series[4]

KeyError: 4

Ну что поделать, open-software стак и не должен быть идеальным!

**Булево индексирование:**

In [12]:
series > 0

0    False
1     True
2     True
dtype: bool

In [13]:
series[series > 0]

1    Nan
2      1
dtype: object

In [14]:
2 in series

True

Конструктор принимет массив ранга один либо словарь. Ключи словаря используются как индекс (в отсортированном порядке):

In [15]:
pd.Series({'a':1, 'c':2, 'b':3})

a    1
b    3
c    2
dtype: int64

In [16]:
index = ['a_letter', 'b_letter', 'c_letter']

Если вызывается конструктор со словарем и парметром index = , то отсутствующие в словаре ключи получат NaN.

In [18]:
pd.Series({'a_letter':1, 'b_letter':2, 'c':3}, index=index)
pd.Series([1, 2, 3], [19, 29, 39])

19    1
29    2
39    3
dtype: int64

In [19]:
pd.Series([1, 2, 3], index=index)

a_letter    1
b_letter    2
c_letter    3
dtype: int64

Операции с Series напоминают операции с ndarray:

In [20]:
series

0    -12
1    Nan
2      1
dtype: object

In [21]:
series[1] = 100

In [23]:
series + series

0    -24
1    200
2      2
dtype: object

In [24]:
series * series

0      144
1    10000
2        1
dtype: object

Самому Series и индексу можно присовить атрибут имя:

In [25]:
series.name = 'some_test_series'

In [26]:
series

0    -12
1    100
2      1
Name: some_test_series, dtype: object

In [27]:
series.index.name = 'some_test_index'

In [28]:
series

some_test_index
0    -12
1    100
2      1
Name: some_test_series, dtype: object

In [29]:
series.index

RangeIndex(start=0, stop=3, step=1, name=u'some_test_index')

Важно помнить, как pandas обращается с несовпадающими индексами:

In [29]:
first_series = pd.Series({'a':1, 'b':2, 'c':2})
second_series = pd.Series({'a':1, 'b':2, 'd':-1})

In [30]:
first_series + second_series

a    2.0
b    4.0
c    NaN
d    NaN
dtype: float64

Индекс всегда можно поменять:

In [31]:
series

some_test_index
0    -12
1    100
2      1
Name: some_test_series, dtype: object

In [32]:
series.index = ['a_letter', 'b_letter', 'c_letter']

In [33]:
series

a_letter    -12
b_letter    100
c_letter      1
Name: some_test_series, dtype: object

In [34]:
series.loc['a_letter']

-12

In [35]:
series.a_letter

-12

In [37]:
series['a_letter']

-12

In [38]:
series.iloc[0:2]

a_letter    -12
b_letter    100
Name: some_test_series, dtype: object

# 1.1. Pandas DataFrame

Представим себе структуру, которая могла бы содержать несколько объекто типа Series, объединенных общим индексом. Тогда бы такая структура являлась pandas.DataFrame - табличным форматом данных, снабженным 2 типами индексов - строчным и колоночным.

In [51]:
df = pd.DataFrame({'A': [20, 10, 30], (1, 2, 3): np.random.randn(3),
                    'B':['A', 'B', 'C']}, index=['a', 'b', 'c'])

In [52]:
df

Unnamed: 0,A,B,"(1, 2, 3)"
a,20,A,-0.118395
b,10,B,2.171647
c,30,C,0.865547


Выбор столбца ниче не отличается от стандартного \_\_getitem\_\_ синтаксиса:

In [41]:
df['A']

a    20
b    10
c    30
Name: A, dtype: int64

In [42]:
df[['A', 'C']]

Unnamed: 0,A,C
a,20,A
b,10,B
c,30,C


In [43]:
df.A

a    20
b    10
c    30
Name: A, dtype: int64

Возможные аргументы для конструктора:

* массив ранга 2 (индексы для столбцов и строк передаются отдельным аргументом либо будет использован xrange);
* словарь массивов ранга 1 (ключ - имя стобца, данные - элементы последовательности);
* словарь объектов pd.Series;
* словарь словарей (ключи внутреннего словаря - имена столбцов), ключи внешнего словаря - индекс обеъкта;
* список словарей - имена столбцов - объединения ключей в словарях.

Выбор строки:

In [43]:
df.loc[['a', 'b']]

Unnamed: 0,A,B,C
a,20,-0.477218,A
b,10,-0.010327,B


In [44]:
df.loc['a':'с']

Unnamed: 0,A,B,C
a,20,-0.477218,A
b,10,-0.010327,B
c,30,-0.076072,C


--  N: Обратите внимание - slice подобного типа включает в себя крайний объект "справа".

In [45]:
df.iloc[0:2]

Unnamed: 0,A,B,C
a,20,-0.477218,A
b,10,-0.010327,B


--  N: А такой - не включает.

In [46]:
df.loc['a', 'B']

-0.47721813473414421

In [47]:
df.loc['a':'b', ['A', 'C']]

Unnamed: 0,A,C
a,20,A
b,10,B


** Операции с dataframe **

In [48]:
df

Unnamed: 0,A,B,C
a,20,-0.477218,A
b,10,-0.010327,B
c,30,-0.076072,C


In [49]:
df[['A', 'B']] + 5

Unnamed: 0,A,B
a,25,4.522782
b,15,4.989673
c,35,4.923928


In [50]:
df[['A', 'C']] + df[['A', 'C']]

Unnamed: 0,A,C
a,40,AA
b,20,BB
c,60,CC


Теперь внимание:

In [53]:
df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = pd.DataFrame({'A': [6, 2, 4], 'B': [9, 1, 4]}, index=[2, 0, 1])

In [54]:
df1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [55]:
df1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [56]:
df2

Unnamed: 0,A,B
2,6,9
0,2,1
1,4,4


In [57]:
df1 + df2

Unnamed: 0,A,B
0,3,5
1,6,9
2,9,15


Очень хорошо!

In [58]:
df3 = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
df3

Unnamed: 0,A,B,C
0,1.947439,-1.190058,-0.406332
1,-0.227745,-0.109228,0.075618
2,-0.032993,-0.206648,0.593905
3,0.047704,-1.623126,1.239565
4,-0.736607,-0.934539,0.616595


In [59]:
df1 + df3

Unnamed: 0,A,B,C
0,2.947439,2.809942,
1,1.772255,4.890772,
2,2.967007,5.793352,
3,,,
4,,,


После примера с Series - такое поведение как раз и ожидалось.

Тем не менее, бывают случаи, когда нам требуется чем - либо заполнить места, в которых индекс не пересекается. В таких случаях удобно использовать параметр fill_value.

In [60]:
df1.add(df3, fill_value=0)

Unnamed: 0,A,B,C
0,2.947439,2.809942,-0.406332
1,1.772255,4.890772,0.075618
2,2.967007,5.793352,0.593905
3,0.047704,-1.623126,1.239565
4,-0.736607,-0.934539,0.616595


Таких "гибких" арифметических операций 4:

* df.add;
* df.sub;
* df.div;
* df.mul.

Как наследие массива из numpy, мы можем использовать broadcasting:

In [61]:
df = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['U', 'O', 'T', 'Z'])

In [62]:
df

Unnamed: 0,b,d,e
U,0.0,1.0,2.0
O,3.0,4.0,5.0
T,6.0,7.0,8.0
Z,9.0,10.0,11.0


In [65]:
series = df.iloc[0]

In [66]:
series

b    0.0
d    1.0
e    2.0
Name: U, dtype: float64

In [67]:
df - series

Unnamed: 0,b,d,e
U,0.0,0.0,0.0
O,3.0,3.0,3.0
T,6.0,6.0,6.0
Z,9.0,9.0,9.0


Совпадение считается по индексу. Если индексы не совпадают, то операция будет использовать объединения индексов:

In [69]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
series2

b    0
e    1
f    2
dtype: int64

In [70]:
df + series2

Unnamed: 0,b,d,e,f
U,0.0,,3.0,
O,3.0,,6.0,
T,6.0,,9.0,
Z,9.0,,12.0,


Если хочется broadcast по столбцам, то нужно использовать один из 4 методов, которые мы поисали ранее:

In [71]:
series3 = df['d']

In [72]:
df

Unnamed: 0,b,d,e
U,0.0,1.0,2.0
O,3.0,4.0,5.0
T,6.0,7.0,8.0
Z,9.0,10.0,11.0


In [67]:
series3

U     1.0
O     4.0
T     7.0
Z    10.0
Name: d, dtype: float64

In [73]:
df.sub(series3, axis=0)

Unnamed: 0,b,d,e
U,-1.0,0.0,1.0
O,-1.0,0.0,1.0
T,-1.0,0.0,1.0
Z,-1.0,0.0,1.0


# 1.2. Индексирование.

Для индекса pandas имеет отдельный тип объекта - index object. Это immutable тип данных.

In [74]:
s1 = pd.Series(xrange(3), index=['a', 'b', 'c'])

In [75]:
s1

a    0
b    1
c    2
dtype: int64

In [76]:
index = s1.index

In [77]:
index

Index([u'a', u'b', u'c'], dtype='object')

In [73]:
index[0]

'a'

In [74]:
index[0] = u'd'

TypeError: Index does not support mutable operations

 Immutable тип позволяет различным структарам иметь общий индекс.

In [78]:
s2 = pd.Series([1.5, -2.5, 0], index=index)

In [79]:
s2.index is s1.index

True

In [80]:
index

Index([u'a', u'b', u'c'], dtype='object')

** Типы индексов **:

* Index, индекс общего назначения, когда индексируется dtype = np.object;
* Int64Index - целочисленный индекс;
* MultiIndex - вложенный иерархический индекс;
* DatetimeIndex - np.datetime64;
* PeriodIndex - индекс для временных периодов.

Для индекса доступны следующие методы:

In [78]:
index.unique()

Index([u'a', u'b', u'c'], dtype='object')

In [79]:
index.is_unique

True

In [80]:
index.is_monotonic

True

In [81]:
index.insert(5, u'd')

Index([u'a', u'b', u'c', u'd'], dtype='object')

In [82]:
index

Index([u'a', u'b', u'c'], dtype='object')

In [83]:
index.drop(u'c')

Index([u'a', u'b'], dtype='object')

In [84]:
index

Index([u'a', u'b', u'c'], dtype='object')

In [85]:
index.append(index)

Index([u'a', u'b', u'c', u'a', u'b', u'c'], dtype='object')

In [86]:
index

Index([u'a', u'b', u'c'], dtype='object')

** Реиндексирование **

In [87]:
ser3 = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [88]:
ser4 = ser3.reindex(['a', 'b', 'c', 'd', 'e'])

In [89]:
ser4

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [90]:
ser3.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

Иногда (особенно при работе с временными рядами), очень важно уметь заполнять пропущенные значения предшествующими:

In [81]:
ser4 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print ser4

0      blue
2    purple
4    yellow
dtype: object


In [82]:
ser4.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [83]:
ser4.reindex(range(6), method='bfill')

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

Столь же просто менять индекс объекта DataFrame:

In [84]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])

In [85]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [93]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [94]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [95]:
states = ['Texas', 'Utah', 'California']

In [97]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [98]:
frame.reindex(index=['a', 'b', 'c', 'd'], method='ffill', columns=states)

ValueError: index must be monotonic increasing or decreasing

Как уже отмечалось выше - булево индексирование аналогично numpy, за тем исключением, что вместо позиции в массиве мы получаем label.

In [99]:
ser3[ser3 > 0]

NameError: name 'ser3' is not defined

# 1.3. Работа со столбцами.

In [114]:
frame = pd.DataFrame(np.random.randn(4, 4), columns=(x for x in 'defg'), 
                  index=['F', 'S', 'T', 'R'])

Как вы уже поянли, никаких проблем с функцией, которая работает в numpy поэлементно, у нас не возникнет:

In [115]:
np.abs(frame)

Unnamed: 0,d,e,f,g
F,0.038938,0.677559,0.211309,1.12307
S,0.989541,0.18847,0.027689,0.451527
T,0.943151,0.479434,0.197243,0.820871
R,0.628089,0.978171,2.339255,0.46345


In [116]:
np.power(frame, 2) 

Unnamed: 0,d,e,f,g
F,0.001516,0.459086,0.044651,1.261286
S,0.979192,0.035521,0.000767,0.203876
T,0.889533,0.229857,0.038905,0.67383
R,0.394496,0.956818,5.472113,0.214786


Однако, чаще нам нужно применить функцию к какому либо столбцу - например, почитать абсолютное значение, сконвертировать из ts в datetime итд.

In [117]:
new_format = lambda x: '%.2f' % x

In [118]:
frame.applymap(new_format)

Unnamed: 0,d,e,f,g
F,-0.04,0.68,-0.21,-1.12
S,0.99,-0.19,0.03,-0.45
T,-0.94,-0.48,-0.2,0.82
R,0.63,0.98,2.34,0.46


In [119]:
frame

Unnamed: 0,d,e,f,g
F,-0.038938,0.677559,-0.211309,-1.12307
S,0.989541,-0.18847,0.027689,-0.451527
T,-0.943151,-0.479434,-0.197243,0.820871
R,0.628089,0.978171,2.339255,0.46345


Для Series метод назывется map().

In [120]:
frame['e'].map(format)

F      0.67755881838
S    -0.188470124485
T     -0.47943374186
R     0.978170595867
Name: e, dtype: object

In [121]:
frame['e'] = frame['e'].map(lambda x: x ** 2) 

In [122]:
frame

Unnamed: 0,d,e,f,g
F,-0.038938,0.459086,-0.211309,-1.12307
S,0.989541,0.035521,0.027689,-0.451527
T,-0.943151,0.229857,-0.197243,0.820871
R,0.628089,0.956818,2.339255,0.46345


Чтобы получить доступ к списку названий, достаточно обратиться к df.columns:

In [123]:
frame.columns

Index([u'd', u'e', u'f', u'g'], dtype='object')

Также полезно следующее:

In [124]:
df.dtypes

b    float64
d    float64
e    float64
dtype: object

Для сортировки по индексу стоит вызвать df.sort_index(), который возвращает копию исходного объекта:

In [127]:
frame.sort_index()

Unnamed: 0,d,e,f,g
F,-0.038938,0.459086,-0.211309,-1.12307
R,0.628089,0.956818,2.339255,0.46345
S,0.989541,0.035521,0.027689,-0.451527
T,-0.943151,0.229857,-0.197243,0.820871


In [114]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,e,d,b
F,0.275105,-2.380679,-1.226942
S,5.061677,1.052599,0.485055
T,0.072697,-2.344839,-1.069882
R,0.196367,0.320138,-1.239669


Чтобы отсортировать по значению столбцов:

In [115]:
frame.sort_index(by=['d', 'b'])

  if __name__ == '__main__':


Unnamed: 0,b,d,e
F,-1.226942,-2.380679,0.275105
T,-1.069882,-2.344839,0.072697
R,-1.239669,0.320138,0.196367
S,0.485055,1.052599,5.061677


In [116]:
frame.sort_values(by=['d', 'b'])

Unnamed: 0,b,d,e
F,-1.226942,-2.380679,0.275105
T,-1.069882,-2.344839,0.072697
R,-1.239669,0.320138,0.196367
S,0.485055,1.052599,5.061677


Также значениям можно присвоить ранг:

In [132]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [133]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

# 1.4. File I/O.

http://pandas.pydata.org/pandas-docs/stable/io.html

Как видно из оффициальной документации (выше), в качестве входного формата могут использоваться следующие:
* read_csv
* read_excel
* read_hdf
* read_sql
* read_json
* read_msgpack (experimental)
* read_html
* read_gbq (experimental)
* read_stata
* read_sas
* read_clipboard
* read_pickle

Каждый из них снабжен "зеркальным" методом "to".

Думаю, что чаще всего вас придется пользоваться методом "read_csv". Подробная сигнатура:

In [134]:
pd.read_csv?

In [1]:
data = pd.read_csv('movie_metadata.csv')

SyntaxError: invalid syntax (<ipython-input-1-e13525228ba2>, line 1)

In [3]:
data.columns

NameError: name 'data' is not defined

In [122]:
data

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
5,Color,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000
6,Color,Sam Raimi,392.0,156.0,0.0,4000.0,James Franco,24000.0,336530303.0,Action|Adventure|Romance,...,1902.0,English,USA,PG-13,258000000.0,2007.0,11000.0,6.2,2.35,0
7,Color,Nathan Greno,324.0,100.0,15.0,284.0,Donna Murphy,799.0,200807262.0,Adventure|Animation|Comedy|Family|Fantasy|Musi...,...,387.0,English,USA,PG,260000000.0,2010.0,553.0,7.8,1.85,29000
8,Color,Joss Whedon,635.0,141.0,0.0,19000.0,Robert Downey Jr.,26000.0,458991599.0,Action|Adventure|Sci-Fi,...,1117.0,English,USA,PG-13,250000000.0,2015.0,21000.0,7.5,2.35,118000
9,Color,David Yates,375.0,153.0,282.0,10000.0,Daniel Radcliffe,25000.0,301956980.0,Adventure|Family|Fantasy|Mystery,...,973.0,English,UK,PG,250000000.0,2009.0,11000.0,7.5,2.35,10000


** СЗ 1 **:
- перевести поле duration в часы;
- создать словарь {dtype: имя\_переменной};
- создать новый df, где индекс - это фамилия режиссера (предположим, что у режиссера фамилия всегда с позиции 1 в name.split(' ', 1)).

In [None]:
data.

Записать получившийся результат можно следующим образом:

In [123]:
data.to_csv?

In [140]:
from sys import stdin
get = input().split()
get

23 53 '\n'


SyntaxError: invalid syntax (<string>, line 1)