# CHAPTER 5 Getting Started with pandas

In [2]:
import pandas as pd

## 5.1 Introduction to pandas Data Structures

数据结构其实就是Series和DataFrame。

### Series

series是一个像数组一样的一维序列，并伴有一个索引，索引和值分别用index和value来表示。

In [6]:
# 创建series：
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [15]:
# 查看index属性
obj.index

RangeIndex(start=0, stop=4, step=1)

In [11]:
# 查看values属性
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [17]:
# index和values都可以应用下标和切片
print('last index: ',obj.index[-1])
print('first value: ',obj.values[0])

last index:  3
first value:  4


In [21]:
# 当然，可以在创建的时候指定index
obj2 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'f'])
obj2

a    4
b    7
c   -5
f    3
dtype: int64

可以对Series做一些运算操作。甚至作为numpy函数的参数。

In [22]:
obj2 * 2

a     8
b    14
c   -10
f     6
dtype: int64

In [23]:
obj2 + 2

a    6
b    9
c   -3
f    5
dtype: int64

In [38]:
# 该操作会根据index自动对齐，不能对齐的NaN填充，这个特性称Data alignment features
obj3 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'g'])
obj2 + obj3

a     8.0
b    14.0
c   -10.0
f     NaN
g     NaN
dtype: float64

In [30]:
import numpy as np
np.exp(obj2)

a      54.598150
b    1096.633158
c       0.006738
f      20.085537
dtype: float64

选择是一个重要的操作。

In [25]:
# 通过index选择
obj2['a']

4

In [28]:
# 通过index列表选择,输出顺序跟index列表有关，如果不存在某个index输出NaN
obj2[['a', 'b', 'd']]

a    4.0
b    7.0
d    NaN
dtype: float64

In [29]:
# 通过条件选择
obj2[obj2 > 0]

a    4
b    7
f    3
dtype: int64

另一种看待series的方法，它是一个长度固定，有顺序的dict，从index映射到value，index作为key。在很多场景下，可以当做dict来用：

In [31]:
'b' in obj2

True

In [32]:
'e' in obj2

False

还可以直接用现有的dict来创建series：

In [33]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon':16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

series中的index其实就是dict中排好序的keys。我们也可以传入一个自己想要的顺序：

In [34]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

series的index能被直接更改：

In [33]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [34]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 2 DataFrame

DataFrame表示一个类似于Excel的二维表格，可以看做是共享相同行索引的series组成的字典。每一列都可以是不同的数值类型（数字，字符串，布尔值）。DataFrame有行索引和列索引。

构建一个dataframe的方法，用一个dict，dict里的值是list，list的长度必须相等否则会报错。对于Series而言，由一个dict构造一个Series，dict的key作为Series的行索引；而对于dataframe而言，dict的key是列索引。

In [42]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002, 2003], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002
5,3.2,Nevada,2003


跟Series相似，dataframe可以指定索引，包括行索引和列索引。如果你导入一个不存在的列名，那么会显示为缺失数据。

In [44]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                      index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


跟Series相似，可以查看索引属性，行索引仍然是index，列索引是columns：

In [47]:
frame2.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

In [48]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

values返回二维数组，注意如果column有不同的类型，dtype会适应所有的列：

In [88]:
frame2.values

array([[2000, 'Ohio', 1.5, nan, True],
       [2001, 'Ohio', 1.7, -1.2, True],
       [2002, 'Ohio', 3.6, nan, True],
       [2001, 'Nevada', 2.4, -1.5, False],
       [2002, 'Nevada', 2.9, -1.7, False],
       [2003, 'Nevada', 3.2, nan, False]], dtype=object)

跟Series相似，dataframe也可以当成dict，但正如给构造函数传入dict时，Series和dataframe的处理方式不一样，只能使用列索引作为key。从DataFrame里提取一列的话会返回series格式：

In [49]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

对于行，要用loc或iloc（integer loc）索引：

In [79]:
print('loc 1:\n')
# 传行索引名字,返回Series
print(frame2.loc['three'])

print('\nloc 2:\n')
# 传行索引名字,返回dataframe
print(frame2.loc[['three']])

print('\nloc 3:\n')
# 行索引，列索引同时传入
print(frame2.loc[['three','four'], ['year']])

print('\niloc 1:\n')
# 传行索引位置（行号）,返回Series
print(frame2.iloc[2])

print('\niloc 2:\n')
# 传行索引位置（行号）,返回dataframe
print(frame2.iloc[[2]])

print('\niloc 3:\n')
# 行索引，列索引同时传入
print(frame2.iloc[[2,3],[]])

loc 1:

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

loc 2:

       year state  pop debt
three  2002  Ohio  3.6  NaN

loc 3:

       year
three  2002
four   2001

iloc 1:

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

iloc 2:

       year state  pop debt
three  2002  Ohio  3.6  NaN

iloc 3:

       year
three  2002
four   2001


列值也能通过赋值改变。比如给debt赋值：

In [46]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


如果把list或array赋给column的话，长度必须符合DataFrame的长度。

In [80]:
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


如果把series赋给DataFrame，会按DataFrame的index来赋值，不够的地方用缺失数据来表示：

In [81]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


如果列不存在，赋值会创建一个新列:

In [84]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


把嵌套dcit传给DataFrame，pandas会把外层dcit的key当做列，内层key当做行索引：

In [85]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


DataFrame也可以像numpy数组一样做转置：

In [86]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6
