In [3]:
import pandas as pd
import numpy as np

## pd.Series

In [4]:
#pd.Series это одномерная структура данных (если нам нужна не табличка а вектор). Ее общий вид выглядить так: pd.Series(data, index)
#data может быть вызвана из массива нумпай и из словаря dict, indexу передается список индексов.

##### Как вызвать?

In [5]:
#Вызов pd.Series из np.ndarray
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print s
#Если индексы не передать то автоматически это будут числа от 0 до n-1
s = pd.Series(np.random.randn(5))
print s

a   -0.175284
b   -0.353459
c    1.617414
d   -1.150152
e    0.097487
dtype: float64
0   -0.551867
1    0.207360
2   -0.269832
3   -0.028506
4   -0.497167
dtype: float64


In [6]:
#вызов pd.Series из dict(), в качестве индекса идут ключи словаря.
test_dict = {'a':1, 'b':2, 'c':3, 'd':4}
s = pd.Series(test_dict)
print s
#если же индексы переданы напрямую, то из словаря будут вытащены значения, соответствующие ключам из списка индекса
#(если такого ключа в словаре нет, то передается NaN)
s = pd.Series(test_dict, index = ['b', 'd', 'c', 'z', 'a'])
print s

a    1
b    2
c    3
d    4
dtype: int64
b    2.0
d    4.0
c    3.0
z    NaN
a    1.0
dtype: float64


In [7]:
#так же можно вызвать series из одного числа. 
s = pd.Series(5.0, index=['a', 'b', 'c', 'd', 'e'])
print s

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64


##### Что можно делать с уже существующим?

In [8]:
#Можно оперировать как с нумпай массивом.

In [9]:
#вызывать и слайсить
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print s[1]
print s[0:10]
print s[:-1]
print s[::-1]
print s[[1, 2, 3]]

-1.33972649304
a    0.695556
b   -1.339726
c   -0.691659
d   -0.176742
e    2.001735
dtype: float64
a    0.695556
b   -1.339726
c   -0.691659
d   -0.176742
dtype: float64
e    2.001735
d   -0.176742
c   -0.691659
b   -1.339726
a    0.695556
dtype: float64
b   -1.339726
c   -0.691659
d   -0.176742
dtype: float64


In [10]:
#использовать специальные функции
print s[s>s.median()]
print np.exp(s)
print np.sum(s)

a    0.695556
e    2.001735
dtype: float64
a    2.004823
b    0.261917
c    0.500745
d    0.837996
e    7.401887
dtype: float64
0.489162493271


In [13]:
#работать как с векторами
print a.dot(b) #надо запустить следующую ячейку
print s**2
print s+s

4
a    0.483798
b    1.794867
c    0.478393
d    0.031238
e    4.006943
dtype: float64
a    1.391111
b   -2.679453
c   -1.383319
d   -0.353485
e    4.003470
dtype: float64


In [14]:
#Ключевое отличие от нумпай массива здесь в том, что сложение идет по индексам, а не по порядку
test_nparray = np.arange(4)
test_index = ['a', 'b', 'c', 'd']
a = pd.Series(test_nparray, test_index)
b = pd.Series(test_nparray, test_index[::-1])
print a+b

a    3
b    3
c    3
d    3
dtype: int64


In [15]:
#Можно оперировать как с dict()-like.
print s['a']
print s.get('e')
print 'e' in s

0.695555661226
2.00173501816
True


In [16]:
#Также есть атрибут name, он бывает оч полезен
s = pd.Series(np.random.randn(5), name='something')
print s.name
print s.rename('лалка').name

something
лалка


## DataFrame

#### Как вызвать?

In [17]:
#Из dict() of series
#Здесь columns формируются из ключей словаря, index формируется из объединенного 
#индекса всех Series.
test_dict_of_series = {'one': pd.Series([1, 2, 3, 4], dtype=float, index=['a', 'b', 'c', 'd']),
                       'two': pd.Series([1, 2, 3, 4, 5], dtype=float, index=['a', 'b', 'c', 'd', 'e'])}
df = pd.DataFrame(test_dict_of_series)
print df

   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  4.0  4.0
e  NaN  5.0


In [18]:
#columns и index можно задать непосредственно, тогда dataframe выцепит
#соответствующие значения
df = pd.DataFrame(test_dict_of_series, columns = ['one', 'two', 'three'], index = ['b', 'c', 'a'])
print df

   one  two three
b  2.0  2.0   NaN
c  3.0  3.0   NaN
a  1.0  1.0   NaN


In [19]:
#Из просто dict(); массивы должны быть одной длины.
test_dict_2 = {'one': np.random.randn(5), 
               'two': np.random.randn(5), 
               'three': np.random.randn(5), 
               'four': np.random.randn(5)}
df = pd.DataFrame(test_dict_2, index=['object_{}'.format(i) for i in xrange(5)], columns=['one', 'two', 'five'])
print df
#можно так же сделать dataframe из константного словаря, для этого надо указать индекс
#в самом df
df = pd.DataFrame({'one':1}, index=np.arange(3))
print df

               one       two five
object_0  0.141244 -1.199612  NaN
object_1  0.891155 -0.256216  NaN
object_2 -1.661578  0.757898  NaN
object_3 -1.534709  1.121177  NaN
object_4 -1.248140  0.675055  NaN
   one
0    1
1    1
2    1


In [20]:
#для получения списка колонок и индекса можно испольховать аттрибут .index 
#и .columns
print df.index
print df.columns

Int64Index([0, 1, 2], dtype='int64')
Index([u'one'], dtype='object')


#### Выбор, срез элементов.

In [21]:
df = pd.DataFrame(test_dict_2,
                 index = ['a', 'b', 'c', 'd', 'e'],
                 columns = test_dict_2.keys()[::-1])

In [22]:
df

Unnamed: 0,one,two,three,four
a,0.141244,-1.199612,-0.80837,0.370048
b,0.891155,-0.256216,-0.381078,-0.13402
c,-1.661578,0.757898,0.407379,1.13847
d,-1.534709,1.121177,-1.142338,-0.330281
e,-1.24814,0.675055,1.258619,-0.827133


In [23]:
#выбор столбца и конкретных строк в столбце (по индексу и по лейблу)
df['one']
df['one'][1:3]
df['one']['b':'c']
df[['one', 'two']][1:4]
df[[0,1,2,3]][1:4]
#срез строк по индексу и по лейблу
df[0:5]
df['a':'e']
#выбор через loc работает так же, как и для numpy массива
#выбор строки по лейблу
df.loc['a']
#выбор среза строк по лейблу
df.loc['a':'e']
#выбор элемента или среза всей таблицы по лейблам
df.loc['a', 'one']
df.loc['a':'e', 'one':'three']
df.loc[['a', 'b', 'e'], ['one', 'three']]
#выбор элемента по индексам, а не лейблам работает через  iloc
df.iloc[0, 1]
df.iloc[0:4, 0:3]
df.iloc[[0, 1, 4], [0, 3]]
#быстрый выбор конкретного элемента
df.at['a','one']
df.iat[0,0]
#можно также использовать булеан вектор для выбора
df.loc[:, [True, False, True, False]]
#для выбора всей таблицы, нужно использовать метод без спец.функций
df[df>0]
#ЗАМЕЧЕНИЕ(!): но вообще надо использовать специальные функции .loc, 
#.iloc, .at, .iat, чем как в примерах начала ячейки.

Unnamed: 0,one,two,three,four
a,0.141244,,,0.370048
b,0.891155,,,
c,,0.757898,0.407379,1.13847
d,,1.121177,,
e,,0.675055,1.258619,


#### Добавление, удаление элементов.

In [24]:
#DataFrame можно использовать как обычный словарь. В данном случае мы можем
#удобно удалять и добавлять только колонки
df['three'] = abs(df['one'] * df['two'])
df['flag'] = abs(df['one']) > 0.9
#удалять можно через df.pop('') или через del
del df['four']
df.pop('three')
#при добавлении series df выцепит соответствующие лейблы, в остальные
#запишет NaN
df['one_cut'] = df['one'][::2]
#по умолчанию новая колонка добавляется в конец, чтобы добавить куда 
#хочешь, нужно использовать функцию insert()
df.insert(2, 'insert_column', df['one']**2)

In [25]:
df.loc[7] = np.random.randn(len(df.columns))

In [26]:
#Добавление и удаление столбцов и строк при помощи методов .loc

#столбцы
df.loc[:, 'new column'] = np.random.randn(len(df))
df.loc[:, len(df.columns)] = np.random.randn(len(df))

#строки
df.loc['krewella'] = np.random.randn(len(df.columns))
df.loc[len(df)] = np.random.randn(len(df.columns))
#чтобы удалить строки используется метод drop
df.drop([7, 'krewella'], axis=0, inplace=True)

In [27]:
#Добавление при помощи .append(). Добавляет новую строку к df по соответствующим колонкам. Если есть новые колонки, 
#просто создает эти новые колонки (тогда в остальных строках в этих колонках будут NaN). Ignore Index =true игнорирует
#старую индексацию и оставлет просто численную индексацию по порядку.
df.append(df.iloc[3], ignore_index=True)

Unnamed: 0,one,two,insert_column,flag,one_cut,new column,6
0,0.141244,-1.199612,0.01995,0.0,0.141244,-0.506009,0.908428
1,0.891155,-0.256216,0.794157,0.0,,-1.031555,-0.802369
2,-1.661578,0.757898,2.760842,1.0,-1.661578,0.793924,-0.764702
3,-1.534709,1.121177,2.355333,1.0,,0.202128,0.256836
4,-1.24814,0.675055,1.557854,1.0,-1.24814,-1.768138,1.801113
5,-1.534709,1.121177,2.355333,1.0,,0.202128,0.256836


### Функции над DF

In [28]:
#Сложение двух df-ов происходит поэлементно, 
#по соответствующим парам (индекс, колонка)
df1 = pd.DataFrame(np.random.randn(10, 4), columns=list('ABCD'))
df2 = pd.DataFrame(np.random.randn(7,3), columns=list('ABC'))
print df1 + df2

          A         B         C   D
0 -0.354170 -2.206920  3.144032 NaN
1 -0.784650 -0.718325  0.635752 NaN
2  0.923649  1.336489 -0.048390 NaN
3  0.220133 -1.053332 -0.384197 NaN
4  0.885638 -0.464579  0.087320 NaN
5 -0.121543 -3.419834 -0.610585 NaN
6 -2.657893 -1.278512  1.190435 NaN
7       NaN       NaN       NaN NaN
8       NaN       NaN       NaN NaN
9       NaN       NaN       NaN NaN


In [29]:
#Суммирование идет построчно(!)
print (df + df.iloc[0])
#Нельзя написать df + df['one'], ожидая, что пройдет суммирование по столб.
#чтобы просуммировать по столбцам, надо использовать цикл.
for column in df.columns:
    df[column] = df[column] + df['one']

        one       two  insert_column  flag   one_cut  new column         6
a  0.282487 -2.399224       0.039900   0.0  0.282487   -1.012018  1.816857
b  1.032399 -1.455829       0.814107   0.0       NaN   -1.537564  0.106059
c -1.520334 -0.441714       2.780792   1.0 -1.520334    0.287915  0.143726
d -1.393466 -0.078435       2.375283   1.0       NaN   -0.303881  1.165265
e -1.106897 -0.524557       1.577804   1.0 -1.106897   -2.274147  2.709541


In [30]:
#Со скалярами df работает очевидно
print df*5 - 7
print 1/df
print df**2

         one        two  insert_column       flag    one_cut  new column  \
a  -5.587564 -11.585625      -5.487815  -5.587564  -4.881346   -8.117609   
b   1.911551   0.630469       5.882337   1.911551        NaN   -3.246224   
c -23.615781 -19.826290      -9.811572 -18.615781 -31.923671  -19.646163   
d -22.347095 -16.741208     -10.570429 -17.347095        NaN  -21.336455   
e -19.481403 -16.106129     -11.692132 -14.481403 -25.722105  -28.322091   

           6  
a  -1.045422  
b  -2.100297  
c -27.439292  
d -21.062913  
e -10.475840  
        one       two  insert_column      flag   one_cut  new column         6
a  3.539983 -1.090364       3.306473  3.539983  2.359988   -4.473836  0.839690
b  0.561070  0.655268       0.388128  0.561070       NaN    1.331992  1.020470
c -0.300919 -0.389824      -1.778364 -0.430449 -0.200612   -0.395377 -0.244627
d -0.325795 -0.513283      -1.400392 -0.483227       NaN   -0.348761 -0.355545
e -0.400596 -0.549081      -1.065614 -0.668324 -0.267064  

In [31]:
#Так же можно делать и логические операции
df1 = pd.DataFrame({'a': [0,1,1], 'b': [1,0,1]}, dtype=bool)
df2 = pd.DataFrame({'a': [0,1,0], 'b': [0,0,1]}, dtype=bool)
print df1 & df2
print df1 | df2
print -df1
print df1^df2

       a      b
0  False  False
1   True  False
2  False   True
       a      b
0  False   True
1   True  False
2   True   True
       a      b
0   True  False
1  False   True
2  False  False
       a      b
0  False   True
1  False  False
2   True  False


In [32]:
#DF, так же как и series, может работать с нумпай функциями
print np.exp(df)
print np.asarray(df)

        one       two  insert_column      flag   one_cut  new column         6
a  1.326425  0.399666       1.353152  1.326425  1.527650    0.799697  3.290092
b  5.943571  4.600172      13.150601  5.943571       NaN    2.118599  2.664298
c  0.036039  0.076899       0.569889  0.097964  0.006842    0.079720  0.016775
d  0.046448  0.142524       0.489640  0.126259       NaN    0.056853  0.060050
e  0.082391  0.161827       0.391243  0.223962  0.023649    0.014060  0.498991
[[ 0.28248726 -0.91712495  0.30243703  0.28248726  0.42373089 -0.2235218
   1.19091554]
 [ 1.78231012  1.5260937   2.57646745  1.78231012         nan  0.75075522
   0.97994069]
 [-3.32315619 -2.56525792 -0.56231442 -2.32315619 -4.98473429 -2.52923261
  -4.08785838]
 [-3.0694189  -1.94824163 -0.7140858  -2.0694189          nan -2.86729094
  -2.81258263]
 [-2.49628061 -1.82122579 -0.93842639 -1.49628061 -3.74442091 -4.26441811
  -0.69516792]]


In [33]:
#Так же работают все векторные операции
df.T
df.T.dot(df)

Unnamed: 0,one,two,insert_column,flag,one_cut,new column,6
one,29.952545,21.511909,11.080561,21.063689,,29.126073,26.035897
two,21.511909,16.863137,8.197338,15.177184,,21.191498,17.635322
insert_column,11.080561,8.197338,8.436413,8.865735,,9.338253,7.844413
flag,21.063689,15.177184,8.865735,15.174833,,19.465131,18.440288
one_cut,,,,,,,
new column,29.126073,21.191498,9.338253,19.465131,,33.417232,21.837624
6,26.035897,17.635322,7.844413,18.440288,,21.837624,27.483029


In [35]:
#Поиск и фильтрование пропущенных данных (NaN)
#метод .dropna() выбраcывает все строки/столбы, где есть ячейки без данных
df.dropna(axis=0, how='any')
#метод .fillna() заполняет ячейки без данных конкретным значением
df.fillna('Wolfenstein')
#метод .isnull() позволяет получить маску истинности для df
df.isnull()

Unnamed: 0,one,two,insert_column,flag,one_cut,new column,6
a,False,False,False,False,False,False,False
b,False,False,False,False,True,False,False
c,False,False,False,False,False,False,False
d,False,False,False,False,True,False,False
e,False,False,False,False,False,False,False


#### Слияние разных DataFrame-ов

In [36]:
#Метод 1 - concat
df1 = pd.DataFrame(test_dict_2)
df2 = pd.DataFrame(test_dict_of_series)
lala = pd.concat([df1, df2], join='outer', keys=['x','y'])

In [37]:
#Метод 2 - join. Слияние в стиле SQL (потом заботаю)

In [42]:
#Метод 3 - append. 
df.append([df.iloc[0:3], df.iloc[3:7]], ignore_index=True)

Unnamed: 0,one,two,insert_column,flag,one_cut,new column,6
0,0.282487,-0.917125,0.302437,0.282487,0.423731,-0.223522,1.190916
1,1.78231,1.526094,2.576467,1.78231,,0.750755,0.979941
2,-3.323156,-2.565258,-0.562314,-2.323156,-4.984734,-2.529233,-4.087858
3,-3.069419,-1.948242,-0.714086,-2.069419,,-2.867291,-2.812583
4,-2.496281,-1.821226,-0.938426,-1.496281,-3.744421,-4.264418,-0.695168
5,0.282487,-0.917125,0.302437,0.282487,0.423731,-0.223522,1.190916
6,1.78231,1.526094,2.576467,1.78231,,0.750755,0.979941
7,-3.323156,-2.565258,-0.562314,-2.323156,-4.984734,-2.529233,-4.087858
8,-3.069419,-1.948242,-0.714086,-2.069419,,-2.867291,-2.812583
9,-2.496281,-1.821226,-0.938426,-1.496281,-3.744421,-4.264418,-0.695168


#### Чтение данных из и запись в файл. 

In [46]:
#из/в .scv
df.to_csv('file_name.csv')
pd.read_csv('file_name.csv', index_col=0)

Unnamed: 0,one,two,insert_column,flag,one_cut,new column,6
a,0.282487,-0.917125,0.302437,0.282487,0.423731,-0.223522,1.190916
b,1.78231,1.526094,2.576467,1.78231,,0.750755,0.979941
c,-3.323156,-2.565258,-0.562314,-2.323156,-4.984734,-2.529233,-4.087858
d,-3.069419,-1.948242,-0.714086,-2.069419,,-2.867291,-2.812583
e,-2.496281,-1.821226,-0.938426,-1.496281,-3.744421,-4.264418,-0.695168


In [None]:
#так же есть записи в excel html и прочие штуки