In [1]:
%%HTML
<style type='text/css'>
    *{
        # background-color:#E3EDCD;
        # background-color:black;
        # color:white;
        
    }
    h1{
        color:#1976d2;
    }
    h2{
        color:#f57c00;
    }
    h3{
        color:#ba37ff;
    }
    table{
        border:1px solid black !important;
        border-collapse:collapse !important;
    }
    th{
        background-color:blueviolet !important;
        text-align:center;
        color:white;
    }
    th,td{
        border:0.1px solid black !important;
        transition:0.2s all liner;
        
    }
    td:hover{
        transform:scale(1.1);
        background-color:orange;
        color:blueviolet;
    }
    .raw{
        white-space:pre;
    }
</style>

<h1>第 3 章 Pandas数据处理</h1>

<p class='raw'>
在上一章中，我们详细介绍了 NumPy 和它的 ndarray 对象，这个对象
为 Python 多维数组提供了高效的存储和处理方法。下面，我们将基于
前面的知识，深入学习 Pandas 程序库提供的数据结构。Pandas 是在
NumPy 基础上建立的新程序库，提供了一种高效的 DataFrame 数据结
构。DataFrame 本质上是一种带行标签和列标签、支持相同类型数据和
缺失值的多维数组。Pandas 不仅为带各种标签的数据提供了便利的存储
界面，还实现了许多强大的操作，这些操作对数据库框架和电子表格程
序的用户来说非常熟悉。
正如我们之前看到的那样，NumPy 的 ndarray 数据结构为数值计算任
务中常见的干净整齐、组织良好的数据提供了许多不可或缺的功能。虽
然它在这方面做得很好，但是当我们需要处理更灵活的数据任务（如为
数据添加标签、处理缺失值等），或者需要做一些不是对每个元素都进
行广播映射的计算（如分组、透视表等）时，NumPy 的限制就非常明
显了，而这些都是分析各种非结构化数据时很重要的一部分。建立在
NumPy 数组结构上的 Pandas，尤其是它的 Series 和 DataFrame 对
象，为数据科学家们处理那些消耗大量时间的“数据清理”（data
munging）任务提供了捷径。
本章将重点介绍 Series、DataFrame 和其他相关数据结构的高效使用
方法。我们会酌情使用真实数据集作为演示示例，但这些示例本身并不
是学习重点。
</p>

<h2>3.1 安装并使用Pandas</h2>

<p class='raw'>在安装 Pandas 之前，确保你的操作系统中有 NumPy。如果你是从源代
码直接编译，那么还需要相应的工具编译建立 Pandas 所需的 C 语言与
Cython 代码。详细的安装方法，请参考 Pandas 官方文档
（http://pandas.pydata.org/）。如果你按照前言的建议使用了
Anaconda，那么 Pandas 就已经安装好了。
Pandas 安装好之后，可以导入它检查一下版本号：</p>

In [3]:
import pandas
pandas.__version__

'2.2.2'

<p>和之前导入 NumPy 并使用别名 np 一样，我们将导入 Pandas 并使用别
名 pd：</p>

In [4]:
import pandas as pd

<p class='raw'>
这种简写方式将贯穿本书。
关于显示内置文档的提醒
当你阅读本章时，不要忘了 IPython 可以快速浏览软件包的内容
（通过 Tab 键补全功能），以及各种函数的文档（使用?）。（如
果你需要复习相关内容，请参见 1.2 节。）
例如，可以通过按下 Tab 键显示 pandas 命名空间的所有内容：
In [3]: pd.
如果要显示 Pandas 的内置文档，可以这样做：
</p>

In [6]:
pd?

[1;31mType:[0m        module
[1;31mString form:[0m <module 'pandas' from 'D:\\virtualenvs\\ai\\lib\\site-packages\\pandas\\__init__.py'>
[1;31mFile:[0m        d:\virtualenvs\ai\lib\site-packages\pandas\__init__.py
[1;31mDocstring:[0m  
pandas - a powerful data analysis and manipulation library for Python

**pandas** is a Python package providing fast, flexible, and expressive data
structures designed to make working with "relational" or "labeled" data both
easy and intuitive. It aims to be the fundamental high-level building block for
doing practical, **real world** data analysis in Python. Additionally, it has
the broader goal of becoming **the most powerful and flexible open source data
analysis / manipulation tool available in any language**. It is already well on
its way toward this goal.

Main Features
-------------
Here are just a few of the things that pandas does well:

  - Easy handling of missing data in floating point as well as non-floating
    point data.
  - Size 

<p class='raw'>详细的文档请参考 http://pandas.pydata.org/，里面除了有基础教程，
还有许多有用的资源。</p>

<h2>3.2 Pandas对象简介</h2>

<p>如果从底层视角观察 Pandas 对象，可以把它们看成增强版的 NumPy 结
构化数组，行列都不再只是简单的整数索引，还可以带上标签。在本章
后面的内容中我们将会发现，虽然 Pandas 在基本数据结构上实现了许
多便利的工具、方法和功能，但是后面将要介绍的每一个工具、方法和
功能几乎都需要我们理解基本数据结构的内部细节。因此，在深入学习
Pandas 之前，先来看看 Pandas 的三个基本数据结
构：Series、DataFrame 和 Index。</p>

<p>从导入标准 NumPy 和 Pandas 开始：</p>

In [7]:
import numpy as np
import pandas as pd

<h3>3.2.1 Pandas的Series对象</h3>

<p>Pandas 的 Series 对象是一个带索引数据构成的一维数组。可以用一个
数组创建 Series 对象，如下所示：</p>

In [9]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

<p>从上面的结果中，你会发现 Series 对象将一组数据和一组索引绑定在
一起，我们可以通过 values 属性和 index 属性获取数据。values 属
性返回的结果与 NumPy 数组类似：</p>

In [10]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

<p>index 属性返回的结果是一个类型为 pd.Index 的类数组对象，我们将
在后面的内容里详细介绍它：</p>

In [11]:
data.index

RangeIndex(start=0, stop=4, step=1)

<p>和NumPy 数组一样，数据可以通过 Python 的中括号索引标签获取：</p>

In [12]:
data[1]

np.float64(0.5)

In [13]:
data[1:3]

1    0.50
2    0.75
dtype: float64

<p>但是我们将会看到，Pandas 的 Series 对象比它模仿的一维 NumPy 数
组更加通用、灵活。</p>

<h4>01. Serise是通用的NumPy数组</h4>

<p class='raw'>
到目前为止，我们可能觉得 Series 对象和一维 NumPy 数组基本
可以等价交换，但两者间的本质差异其实是索引：NumPy 数组通
过隐式定义的整数索引获取数值，而 Pandas 的 Series 对象用一
种显式定义的索引与数值关联。
显式索引的定义让 Series 对象拥有了更强的能力。例如，索引不
再仅仅是整数，还可以是任意想要的类型。如果需要，完全可以用
字符串定义索引：
</p>

In [14]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

<p>也可以使用不连续或不按顺序的索引：</p>

In [15]:
data = pd.Series([0.25,0.5,0.75,1.0],index=[2,5,3,7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [16]:
data[5]

np.float64(0.5)

<h4>02. Series是特殊的字典</h4>

<p class='raw'>你可以把 Pandas 的 Series 对象看成一种特殊的 Python 字典。字
典是一种将任意键映射到一组任意值的数据结构，而 Series 对象
其实是一种将类型键映射到一组类型值的数据结构。类型至关重
要：就像 NumPy 数组背后特定类型的经过编译的代码使得它在某
些操作上比普通的 Python 列表更加高效一样，Pandas Series 的类
型信息使得它在某些操作上比 Python 的字典更高效。
我们可以直接用 Python 的字典创建一个 Series 对象，让 Series
对象与字典的类比更加清晰：</p>

In [4]:
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}
population = pd.Series(population_dict)

In [5]:
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

<p>用字典创建 Series 对象时，其索引默认按照顺序排列。典型的字
典数值获取方式仍然有效：</p>

In [19]:
population['California']

np.int64(38332521)

<p>和字典不同，Series 对象还支持数组形式的操作，比如切片：</p>

In [20]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

<p>我们将在 3.3 节中介绍 Pandas 取值与切片的一些技巧。</p>

<h4>03. 创建Series对象</h4>

<p>我们已经见过几种创建 Pandas 的 Series 对象的方法，都是像这样
的形式：</p>

<p class='raw'>
其中，index 是一个可选参数，data 参数支持多种数据类型。
例如，data 可以是列表或 NumPy 数组，这时 index 默认值为整
数序列：
</p>

In [22]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

<p>data 也可以是一个标量，创建 Series 对象时会重复填充到每个
索引上：</p>

In [23]:
pd.Series(5,index=[100,200,300])

100    5
200    5
300    5
dtype: int64

<p>data 还可以是一个字典，index 默认是排序的字典键：</p>

In [25]:
pd.Series({2:'a',1:'b',3:'c'})

2    a
1    b
3    c
dtype: object

<p>每一种形式都可以通过显式指定(即指定index=[xxx])索引筛选需要的结果：</p>

In [26]:
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

<p>这里需要注意的是，Series 对象只会保留显式定义的键值对。</p>

<h3>3.2.2 Pandas的DataFrame对象</h3>

<p>Pandas 的另一个基础数据结构是 DataFrame。和上一节介绍的 Series
对象一样，DataFrame 既可以作为一个通用型 NumPy 数组，也可以看
作特殊的 Python 字典。下面来分别看看。</p>

<h4>01. DataFrame是通用的NumPy数组</h4>

<p class='raw'>
如果将 Series 类比为带灵活索引的一维数组，那么 DataFrame
就可以看作是一种既有灵活的行索引，又有灵活列名的二维数组。
就像你可以把二维数组看成是有序排列的一维数组一样，你也可以
把 DataFrame 看成是有序排列的若干 Series 对象。这里的“排
列”指的是它们拥有共同的索引。
下面用上一节中美国五个州面积的数据创建一个新的 Series 来进
行演示：
</p>

In [6]:
area_dict={'California':423967, 'Texas':695662, 'New York':141297,
'Florida':170312, 'Illinois':149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

<p>再结合之前创建的 population 的 Series 对象，用一个字典创建
一个包含这些信息的二维对象：</p>

In [8]:
states = pd.DataFrame({'population': population,'area': area}) #字典的键相当于列名称

In [9]:
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


<p>和 Series 对象一样，DataFrame 也有一个 index 属性可以获取
索引标签：</p>

In [32]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

<p>另外，DataFrame 还有一个 columns 属性，是存放列标签的
Index 对象：</p>

In [35]:
states.columns 

Index(['population', 'area'], dtype='object')

<p>因此 DataFrame 可以看作一种通用的 NumPy 二维数组，它的行与
列都可以通过索引获取。</p>

<h4>02. DataFrame是特殊的字典</h4>

<p>与 Series 类似，我们也可以把 DataFrame 看成一种特殊的字
典。字典是一个键映射一个值，而 DataFrame 是一列映射一个
Series 的数据。例如，通过 'area' 的列属性可以返回包含面积
数据的 Series 对象：</p>

In [38]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

<p>这里需要注意的是，在 NumPy 的二维数组里，data[0] 返回第一
行；而在 DataFrame 中，data['col0'] 返回第一列。因此，最
好把 DataFrame 看成一种通用字典，而不是通用数组，即使这两
种看法在不同情况下都是有用的。3.3 节将介绍更多 DataFrame 灵
活取值的方法。
</p>

<h4>03. 创建DataFrame对象</h4>

<p>Pandas 的 DataFrame 对象可以通过许多方式创建，这里举几个常
用的例子。</p>

<p>(1) 通过单个 Series 对象创建。DataFrame 是一组 Series 对象的
集合，可以用单个 Series 创建一个单列的 DataFrame：</p>

In [39]:
pd.DataFrame(population,columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


<p>(2) 通过字典列表创建。任何元素是字典的列表都可以变成
DataFrame。用一个简单的列表综合来创建一些数据：</p>

In [1]:
import pandas as pd

In [2]:
data=[{'a':i,'b':2*i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


<p>即使字典中有些键不存在，Pandas 也会用缺失值 NaN（不是数字，
not a number）来表示：
</p>

In [3]:
pd.DataFrame([{'a':1,'b':2},{'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


<p>(3) 通过 Series 对象字典创建。就像之前见过的那样，DataFrame
也可以用一个由 Series 对象构成的字典创建：</p>

In [10]:
pd.DataFrame({'population':population,'area':area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


<p>(4) 通过 NumPy 二维数组创建。假如有一个二维数组，就可以创建
一个可以指定行列索引值的 DataFrame。如果不指定行列索引值，
那么行列默认都是整数索引值：</p>

In [12]:
import numpy as np
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.647973,0.713503
b,0.908266,0.053593
c,0.527808,0.745273


<p>(5) 通过 NumPy 结构化数组创建。2.9 节曾介绍过结构化数组。由
于 Pandas 的 DataFrame 与结构化数组十分相似，因此可以通过结
构化数组创建 DataFrame：</p>

In [14]:
A = np.zeros(3,dtype=[('A','i8'),('B','f8')]) #指定A的数据类型<int8;B的数据类型小于float8
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [15]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


<h3>3.2.3 Pandas的Index对象</h3>

<p>我们已经发现，Series 和 DataFrame 对象都使用便于引用和调整的显
式索引。Pandas 的 Index 对象是一个很有趣的数据结构，可以将它看
作是一个不可变数组或有序集合（实际上是一个多集，因为 Index 对
象可能会包含重复值）。这两种观点使得 Index 对象能呈现一些有趣
的功能。让我们用一个简单的整数列表来创建一个 Index 对象：</p>

In [16]:
ind = pd.Index([2,3,5,7,11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

<p>01. 将Index看作不可变数组</p>

In [None]:
# 178