# 3 Pandas数据处理

## 3.2 Pandas对象

### 3.2.1 Series对象
Series对象是一个带索引数据构成的一维数组，可以用一个数组创建Series对象

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series对象将一组数据和一组索引绑定在一起，可以通过values获取类似numpy数组的数据。

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

index属性返回的结果是一个类型为pd.Index的类数组对象

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

和Numpy数组一样，可以通过索引标签获取

In [5]:
data[1], data[1:3]

(0.5,
 1    0.50
 2    0.75
 dtype: float64)

#### 01 Series是通用的Numpy数组

两者间的本质差异其实是索引：Numpy数组通过隐式定义的整数索引获取数值，而Pandas的Series对象用一种显式的定义索引与数值关联
显式定义索引让Series有了更强的能力，比如索引不再仅仅是整数，还可以是任意想要的类型，比如字符串

In [6]:
data = pd.Series(np.linspace(0.25, 1, 4), index=['a', 'b', 'c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

也可以使用不连续或者不按顺序的索引

In [7]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 3, 5, 7])
data

2    0.25
3    0.50
5    0.75
7    1.00
dtype: float64

#### 02 Series是特殊的字典
Series对象其实就是一种将类型键映射到一组类型值的数据结构。类型至关重要：就像Numpy数组背后特定类型的经过编译的代码使得它在某些操作上比普通的Pythonlist更加高效一样，Series比dict更加高效

In [8]:
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

和dict不同，Series还支持数组形式的操作，比如切片

In [9]:
population['California':'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

#### 03创建Series对象
通过pd.Serires(data, index=index)创建对象时：data可以是列表或者Numpy数组，这时index默认为整数序列

In [10]:
pd.Series([2, 4, 6])


0    2
1    4
2    6
dtype: int64

data也可以是一个标量，创建Series对象的时候会重复填充到每一个索引上

In [11]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

data可以是一个字典，index默认是排序的字典键

In [12]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

每一种形式都可以 通过显示指定索引筛选想要的结果

In [13]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[2,3])

2    a
3    c
dtype: object

**Series对象只会保留显式的键值对**

### 3.2.2 DataFrame对象

#### 01 DataFrame是通用的Numpy数组
DataFrame可以看做有灵活索引、列名的二维数组。也可以是若干有序排列的Series对象。

In [14]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)

area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

用一个字典创造一个包含这些信息的二维（DataFrame对象）

In [15]:
states = pd.DataFrame({'population': population,
                      'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


DataFrame也可以获取index属性

In [16]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

DataFrame还有一个columns属性，用来存放列标签的Index对象

In [17]:
states.columns

Index(['population', 'area'], dtype='object')

#### 02 DataFrame是特殊的字典
和Series类似，DataFrame也可以看成一种特殊的字典。一列映射一个Series的数据。例如通过'area'的列属性可以返回包含面积数据的Series对象：

In [18]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

在Numpy中，data[0]返回第一行；在DataFrame中，data['col0']返回第一列。因此最好把DataFrame看成通用字典而不是数组

#### 03 创建DataFrame对象

##### 1 DataFrame对象是一组Series对象的集合

In [19]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


##### 2 通过字典列表创建
任何元素是字典的列表都可以变成DataFrame

In [20]:
data = pd.DataFrame([{'a' : i, 'b' : 2 * i} for i in range(3)])
data

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


即使字典中有些键不存在，Pandas也会用缺失值NaN（not a number）来表示

In [21]:
pd.DataFrame([{'a' : 1, 'b' : 2}, {'b' : 2, 'c' : 1}])


Unnamed: 0,a,b,c
0,1.0,2,
1,,2,1.0


##### 3通过Series对象字典创建

In [22]:
pd.DataFrame({'population' : population, 'area' : area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


##### 4 通过Numpy二维数组创建

In [23]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.142262,0.995929
b,0.503283,0.383383
c,0.234233,0.021135


### 3.2.3 Pandas的Index对象

可以将Index对象看做一个不可变数组或者有序的集合

In [24]:
ind = pd.Index([2, 3, 5,7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

#### 01将Index看做不可变数组

In [25]:
ind[1], ind[::2]

(3, Int64Index([2, 5, 11], dtype='int64'))

Index对象还有很多和Numpy数组相似的属性

In [26]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Index对象是不可变的，所以修改Index对象会报错

In [27]:
ind[1] = 0

TypeError: Index does not support mutable operations

#### 02将Index看做有序集合
Index对象遵循Python标准库的集合(set)数据结构的许多习惯用法，包括并集、交集、差集等：

In [None]:
indA = pd.Index([i*2+1 for i in range(5)])
indB = pd.Index([2, 3, 5, 7, 11])
indA, indB

(Int64Index([1, 3, 5, 7, 9], dtype='int64'),
 Int64Index([2, 3, 5, 7, 11], dtype='int64'))

In [None]:
indA & indB #交集

  """Entry point for launching an IPython kernel.


Int64Index([3, 5, 7], dtype='int64')

In [None]:
indA | indB #并集

  """Entry point for launching an IPython kernel.


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [None]:
indA ^ indB #异或

  """Entry point for launching an IPython kernel.


Int64Index([1, 2, 9, 11], dtype='int64')

## 3.3数据取值与选择


### 3.3.1 Series数据选择方法

#### 01将Series看做字典

In [28]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                    index=['a', 'b', 'c', 'd'])

data, data['b']

(a    0.25
 b    0.50
 c    0.75
 d    1.00
 dtype: float64,
 0.5)

可以用Python字典的表达式和方法来检测键/索引和值：

In [29]:
'a' in data

True

In [30]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [31]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

#### 02将Series看做一维数组
Series具有和Numpy数组一样的数组数据选择功能，包括索引、掩码、花哨的索引等操作

In [32]:
#将显示索引作为切片
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [33]:
#将隐式整数索引作为切片
data[0:2]

a    0.25
b    0.50
dtype: float64

In [34]:
#掩码
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [35]:
#花哨的索引
data[['a', 'd']]

a    0.25
d    1.00
dtype: float64

**使用显示索引的时候，包含最后一个索引，而使用隐式索引的时候，结果不包含最后一个索引。**

#### 03索引器：loc iloc ix
如果Series是显示整数索引，那么data[1]会使用显示整数索引，而使用切片data[1:3]的时候会使用隐式索引

In [36]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

Pandas提供了一些索引器属性作为取值的方法，他们不是Series对象的函数方法，而是暴露切片接口的属性

##### loc属性
表示取值和切片都是显示的：

In [37]:
data.loc[1]

'a'

In [38]:
data.loc[1:3]

1    a
3    b
dtype: object

##### iloc属性
从0开始，左闭右开区间->Python形式的隐式索引

In [39]:
data.iloc[1]

'b'

In [40]:
data.iloc[1:3]

3    b
5    c
dtype: object

Series中ix等价于表中的[]取值方式，ix主要用于DataFrame对象。

### 3.3.2 DataFrame中数据选择方法
DataFrame有些方面像二维或者结构化数组，有些方面又像一个共享索引的若干Series对象构成的字典

#### 01将DataFrame看作字典

In [42]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                'New York': 141297, 'Florida': 170312,
                'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                'New York': 19651127, 'Florida': 19552860,
                'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


可以通过列名进行字典形式的取值获取数据

In [43]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

也可以用属性形式选择纯字符串列名的数据

In [44]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [45]:
data.area is data['area']

True

可以用字典形式的方法调整对象，增加一列可以：

In [47]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


#### 02 将DataFrame看作二维数组

In [48]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

可以按照数组的方式对DataFrame进行行列转置

In [49]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


通过iloc索引器，就可以像对待Numpy数组一样索引Pandas的底层数组（隐式索引，即从0开始左闭右开区间），DataFrame的行列标签会自动保存在结果中

In [54]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


DataFrame Series的ix方法删了 老实用iloc和loc吧

In [58]:
#data.ix[:3, :'pop']

#### 03其他取值方法
如果对单个标签取值就选择列 对多个标签取值就选择行

In [59]:
#对多个标签（列、属性）取值 选择行
data['Florida' : 'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


切片也可以不用索引值，而直接用行数来实现：

In [61]:
data[1:3], data

(            area       pop     density
 Texas     695662  26448193   38.018740
 New York  141297  19651127  139.076746,
               area       pop     density
 California  423967  38332521   90.413926
 Texas       695662  26448193   38.018740
 New York    141297  19651127  139.076746
 Florida     170312  19552860  114.806121
 Illinois    149995  12882135   85.883763)

与其类似，掩码操作也可以直接对每一行进行过滤,e而不需要使用loc索引器

In [63]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


## 3.4Pandas数值运算方法

### 3.4.1 通用函数：保留索引
因为Pandas是建立在Numpy基础之上的，所以Numpy的通用函数也适用于Pandas

In [64]:
import pandas as pd
import numpy as np

In [65]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [68]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,3,8,2
1,4,2,6,4
2,8,6,1,3


如果对这两个对象其中一个使用Numpy通用函数，生成的结果是另一个保留索引的Pandas对象

In [69]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [70]:
np.sin(df * np.pi /4)

Unnamed: 0,A,B,C,D
0,-1.0,0.707107,-2.449294e-16,1.0
1,1.224647e-16,1.0,-1.0,1.224647e-16
2,-2.449294e-16,-1.0,0.7071068,0.7071068


### 3.4.2 通用函数：索引对齐
当两个Series或者DataFrame对象上进行二元计算的时候，Pandas会在计算过程中对齐两个对象的索引。

#### 01 Series对齐索引

In [73]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                'California': 423967}, name='area')

population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

In [74]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

对于缺失位置的数据，Pandas会用NaN填充，表示“此处无数”。