In [2]:
import pandas as pd
print(pd.__version__)

0.19.2


In [3]:
import numpy as np
from pandas import Series, DataFrame

# pandas主要的两个数据结构是Series和DataFrame
# Series和一维数组最主要的区别在于Series类型具有索引（index），可以和数据结构哈希（Hash）联系起来。
a = np.random.randn(5)
print(a) 
# 基本格式是s = Series(data, index=index, name=name)
s = Series(a)
print(s)

[ 0.46284954 -0.50567034 -0.66016823 -1.16795442 -0.10144778]
0    0.462850
1   -0.505670
2   -0.660168
3   -1.167954
4   -0.101448
dtype: float64


In [4]:
#若指定index，那么index长度要和data的长度一致：
s = Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
print(s)
print(s.index)  # Series.index查看具体的index

a    0.461791
b   -1.232140
c    0.647539
d    0.714020
e    1.077135
dtype: float64
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


In [5]:
s = Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'], name='my_series')
print(s)
print(s.name) 

a    1.606507
b    0.333256
c   -1.043982
d   -0.900337
e    2.800235
Name: my_series, dtype: float64
my_series


In [6]:
# Series还可以从字典（dict）创建：

d = {'a': 0., 'b': 1, 'c': 2}
print(d)
s = Series(d)
print(s)

{'a': 0.0, 'b': 1, 'c': 2}
a    0.0
b    1.0
c    2.0
dtype: float64


In [7]:
# 使用字典创建Series时指定index的情形（index长度不必和字典相同）：
s = Series(d, index=['b', 'c', 'd', 'a'])
print(s)

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64


In [8]:
# Series数据可以和数组一样使用下标，也可以像字典一样使用索引，还可以使用一些条件过滤：

s = Series(np.random.randn(10),index=['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'])
print(s[0])
print(s[:4])
print(s[[3,1,5]])
print(s[['c','f','j']])
print(s[s > 0.5])
print('e' in s)

-0.220558722962
a   -0.220559
b   -0.772296
c    0.634132
d   -0.917901
dtype: float64
d   -0.917901
b   -0.772296
f   -0.278899
dtype: float64
c    0.634132
f   -0.278899
j   -1.300255
dtype: float64
c    0.634132
dtype: float64
True


## DataFrame

In [9]:
# DataFrame是将数个Series按列合并而成的二维数据结构，每一列单独取出来是一个Series
d = {'one': Series([1., 2., 3.], index=['a', 'b', 'c']), 'two': Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = DataFrame(d)
print(df) 

   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0


In [10]:
# 可以指定所需的行和列，若字典中不含有对应的元素，则置为NaN：

df = DataFrame(d, index=['r', 'd', 'a'], columns=['two', 'three'])
print(df) 

   two three
r  NaN   NaN
d  4.0   NaN
a  1.0   NaN


In [11]:
# 可以使用dataframe.index和dataframe.columns来查看DataFrame的行和列，dataframe.values则以数组的形式返回DataFrame的元素：
print(df.index) 
print(df.columns) 
print(df.values) 


Index(['r', 'd', 'a'], dtype='object')
Index(['two', 'three'], dtype='object')
[[nan nan]
 [4.0 nan]
 [1.0 nan]]


In [12]:
# DataFrame也可以从值是数组的字典创建，但是各个数组的长度需要相同：

d = {'one': [1., 2., 3., 4.], 'two': [4., 3., 2., 1.]}
df = DataFrame(d, index=['a', 'b', 'c', 'd'])
print(df) 

   one  two
a  1.0  4.0
b  2.0  3.0
c  3.0  2.0
d  4.0  1.0


In [13]:
# 值非数组时，没有这一限制，并且缺失值补成NaN：

d= [{'a': 1.6, 'b': 2}, {'a': 3, 'b': 6, 'c': 9}]
df = DataFrame(d)
print(df)

     a  b    c
0  1.6  2  NaN
1  3.0  6  9.0


In [14]:
# 创建一个空的DataFrame，可以这么做：

df = DataFrame()
print(df) 

Empty DataFrame
Columns: []
Index: []


In [15]:
# 使用concat函数基于Series或者DataFrame创建一个DataFrame
# axis=1表示按列进行合并，axis=0表示按行合并
a = Series(range(5))
b = Series(np.linspace(4, 20, 5))
df = pd.concat([a, b], axis=1)
sf = pd.concat([a, b], axis=0)
print(df)
print(sf) 

   0     1
0  0   4.0
1  1   8.0
2  2  12.0
3  3  16.0
4  4  20.0
0     0.0
1     1.0
2     2.0
3     3.0
4     4.0
0     4.0
1     8.0
2    12.0
3    16.0
4    20.0
dtype: float64


In [16]:
# 按行合并DataFrame成一个大的DataFrame：

df = DataFrame()
index = ['alpha', 'beta', 'gamma', 'delta', 'eta']
for i in range(5):
    a = DataFrame([np.linspace(i, 5*i, 5)], index=[index[i]])
    df = pd.concat([df, a], axis=0)
print(df) 

         0    1     2     3     4
alpha  0.0  0.0   0.0   0.0   0.0
beta   1.0  2.0   3.0   4.0   5.0
gamma  2.0  4.0   6.0   8.0  10.0
delta  3.0  6.0   9.0  12.0  15.0
eta    4.0  8.0  12.0  16.0  20.0


In [17]:
# 用dataframe.column_name选取列，也可以使用dataframe[]操作选取列，前一种方法只能选取一列，而后一种方法可以选择多列。若DataFrame没有列名，[]可以使用非负整数，也就是“下标”选取列；若有列名，则必须使用列名选取
print(df[1]) 
print(type(df[1])) 

alpha    0.0
beta     2.0
gamma    4.0
delta    6.0
eta      8.0
Name: 1, dtype: float64
<class 'pandas.core.series.Series'>


In [18]:
df.columns = ['a', 'b', 'c', 'd', 'e']
print(df['b']) 
print(type(df['b'])) 


alpha    0.0
beta     2.0
gamma    4.0
delta    6.0
eta      8.0
Name: b, dtype: float64
<class 'pandas.core.series.Series'>


In [19]:
print(df.b) 
print(type(df.b)) 

alpha    0.0
beta     2.0
gamma    4.0
delta    6.0
eta      8.0
Name: b, dtype: float64
<class 'pandas.core.series.Series'>


In [20]:
print(df[['a', 'd']]) 
print(type(df[['a', 'd']])) 

         a     d
alpha  0.0   0.0
beta   1.0   4.0
gamma  2.0   8.0
delta  3.0  12.0
eta    4.0  16.0
<class 'pandas.core.frame.DataFrame'>


In [21]:
# 单独取一列，其数据结构显示的是Series
print(df['b'][3]) 
print(df['b']['gamma']) 

6.0
4.0


In [22]:
#若选取行，可以使用dataframe.iloc按下标选取，或者使用dataframe.loc按索引选取：
print(df.iloc[1]) 
print(df.loc['beta']) 

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: beta, dtype: float64
a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: beta, dtype: float64


In [23]:
# 选取行还可以使用切片的方式或者是布尔类型的向量：
print(df[1:3]) 
bool_vec = [True, False, True, True, False]
print(df[bool_vec]) 

         a    b    c    d     e
beta   1.0  2.0  3.0  4.0   5.0
gamma  2.0  4.0  6.0  8.0  10.0
         a    b    c     d     e
alpha  0.0  0.0  0.0   0.0   0.0
gamma  2.0  4.0  6.0   8.0  10.0
delta  3.0  6.0  9.0  12.0  15.0


In [24]:
# 行列组合起来选取数据
print(df[['b', 'd']].iloc[[1, 3]]) 
print(df.iloc[[1, 3]][['b', 'd']]) 
print(df[['b', 'd']].loc[['beta', 'delta']]) 
print(df.loc[['beta', 'delta']][['b', 'd']]) 

         b     d
beta   2.0   4.0
delta  6.0  12.0
         b     d
beta   2.0   4.0
delta  6.0  12.0
         b     d
beta   2.0   4.0
delta  6.0  12.0
         b     d
beta   2.0   4.0
delta  6.0  12.0


In [25]:
#访问个特殊位置的元素的话，dataframe.at和dataframe.iat是最快的方式，它们分别用于使用索引和下标进行访问：
print(df.iat[2, 3]) 
print(df.at['gamma', 'd']) 

8.0
8.0


In [26]:
# dataframe.ix可以混合使用索引和下标进行访问，行列内部需要一致，不可以同时使用索引和标签访问行或者列，否则将会得到意外的结果：
print(df.ix['gamma', 4]) 
print(df.ix[['delta', 'gamma'], [1, 4]]) 
print(df.ix[[1, 2], ['b', 'e']]) 

print(df.ix[['beta', 2], ['b', 'e']]) # Unwanted result
print(df.ix[[1, 2], ['b', 4]]) # Unwanted result


10.0
         b     e
delta  6.0  15.0
gamma  4.0  10.0
         b     e
beta   2.0   5.0
gamma  4.0  10.0
        b    e
beta  2.0  5.0
2     NaN  NaN
         b   4
beta   2.0 NaN
gamma  4.0 NaN
