## 3.2　Pandas对象简介

In [3]:
import pandas
pandas.__version__

'0.23.0'

In [None]:
# 可以通过按下Tab 键显示pandas 命名空间的所有内容：
pd.<TAB>
# 如果要显示Pandas 的内置文档，可以这样做：
pd?

**Pandas 的三个基本数据结构：Series、DataFrame 和Index。**

In [4]:
import numpy as np
import pandas as pd

### 3.2.1　Pandas的Series对象

Pandas 的Series 对象是一个带索引数据构成的一维数组。

In [5]:
# 用一个数组创建Series 对象
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series 对象将一组数据和一组索引绑定在一起，我们可以通过values 属性和index 属性获取数据。

In [8]:
# values 属性返回的结果与NumPy 数组类似：
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [9]:
# index 属性返回的结果是一个类型为pd.Index 的类数组对
data.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
# 和NumPy 数组一样，数据可以通过Python 的中括号索引标签获取：
data[1]
data[1:3]

1    0.50
2    0.75
dtype: float64

**1. Serise是通用的NumPy数组**，但两者间的本质差异其实是**索引**：NumPy 数组通过隐式定义的整数索引获取数值，而Pandas 的Series 对象用一种显式定义的索引与数值关联。


In [11]:
# 索引不再仅仅是整数，还可以是任意想要的类型。如果需要，完全可以用字符串定义索引：
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [12]:
data['b']

0.5

In [13]:
# 也可以使用不连续或不按顺序的索引：
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [14]:
data[5]

0.5

**2. Series是特殊的字典**，Series 对象其实是一种将类型键映射到一组类型值的数据结构。

> 类型至关重要：就像NumPy 数组背后特定类型的经过编译的代码使得它在某些操作上比普通的Python 列表更加高效一样，Pandas Series 的类型信息使得它在某些操作上比Python 的字典更高效。

In [16]:
# 直接用Python 的字典创建一个Series 对象，让Series 对象与字典的类比更加清晰：
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [17]:
population['California']

38332521

In [18]:
# Series 对象还支持数组形式的操作，比如切片：
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

**3. 创建Series对象。**
<br>`pd.Series(data, index=index)`
<br>其中，index 是一个可选参数，data 参数支持多种数据类型。
<br>例如，data 可以是列表或NumPy 数组，这时index 默认值为整数序列：
<br>`pd.Series([2, 4, 6])`
<br>data 也可以是一个标量，创建Series 对象时会重复填充到每个索引上：
<br>`pd.Series(5, index=[100, 200, 300])`
<br>data 还可以是一个字典，index 默认是排序的字典键：
<br>`pd.Series({2:'a', 1:'b', 3:'c'})`
<br>每一种形式都可以通过显式指定索引筛选需要的结果：
<br>`pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])`

要注意的是，Series 对象只会保留显式定义的键值对。

### 3.2.2　Pandas的DataFrame对象

Pandas 的另一个基础数据结构是DataFrame。

和上一节介绍的Series 对象一样，DataFrame既可以作为一个通用型NumPy 数组，也可以看作特殊的Python 字典。

**1. DataFrame是通用的NumPy数组**
> 如果将Series 类比为带灵活索引的一维数组，那么DataFrame 就可以看作是一种既有灵活的行索引，又有灵活列名的二维数组。也可以把DataFrame 看成是有序排列的若干Series 对象。这里的“排列”指的是
它们拥有共同的索引。

In [23]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [24]:
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [25]:
states = pd.DataFrame({'population': population,
'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [26]:
# DataFrame 也有一个index 属性可以获取索引标签：
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [27]:
# DataFrame 还有一个columns 属性，是存放列标签的Index 对象：
states.columns

Index(['population', 'area'], dtype='object')

因此DataFrame 可以看作一种通用的NumPy 二维数组，它的行与列都可以通过索引获取。

**2. DataFrame是特殊的字典**

字典是一个键映射一个值，而DataFrame 是一列映射一个Series 的数据。

In [28]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

> 要注意的是：
<br>在NumPy 的二维数组里，data[0] 返回第一行；
<br>而在DataFrame 中，data['col0'] 返回第一列。
<br>因此，最好把DataFrame 看成一种通用字典，而不是通用数组，即使这两种看法在不同情况下都是有用的。

**3. 创建DataFrame对象**

(1) 通过**单个Series 对象**创建。DataFrame 是一组Series 对象的集合，可以用单个Series
创建一个单列的DataFrame：

In [29]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


(2) 通过**字典列表**创建。任何元素是字典的列表都可以变成DataFrame。用一个简单的列表综合来创建一些数据：

In [30]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


即使字典中有些键不存在，Pandas 也会用缺失值NaN（不是数字，not a number）来表示：

In [31]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


(3) 通过**Series 对象字典**创建。就像之前见过的那样，DataFrame 也可以用一个由Series对象构成的字典创建：

In [32]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


(4) 通过**NumPy 二维数组**创建。假如有一个二维数组，就可以创建一个可以指定行列索引值的DataFrame。如果不指定行列索引值，那么行列默认都是整数索引值：

In [33]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.496827,0.073276
b,0.336982,0.255736
c,0.516898,0.272746


(5) 通过**NumPy 结构化数组**创建。2.9 节曾介绍过结构化数组。由于Pandas 的DataFrame与结构化数组十分相似，因此可以通过结构化数组创建DataFrame：

In [35]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [36]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### 3.2.3　Pandas的Index对象

我们已经发现，Series 和DataFrame 对象都使用便于引用和调整的显式索引。Pandas 的Index 对象是一个很有趣的数据结构，可以将它看作是一个不可变数组或有序集合（实际上是一个多集，因为Index 对象可能会包含重复值）。这两种观点使得Index 对象能呈现一些有趣的功能。让我们用一个简单的整数列表来创建一个Index 对象：

In [37]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

**1. 将Index看作不可变数组**
<br>Index 对象的许多操作都像数组。
<br>可以通过标准Python 的取值方法获取数值，也可以通过切片获取数值：

In [None]:
ind[1]
ind[::2]

In [41]:
# Index 对象还有许多与NumPy 数组相似的属性：
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Index 对象与NumPy 数组之间的不同在于，**Index 对象的索引是不可变的**，也就是说不能通过通常的方式进行调整：

In [42]:
ind[1] = 0

TypeError: Index does not support mutable operations

Index 对象的不可变特征使得多个DataFrame 和数组之间进行索引共享时更加安全，尤其是可以避免因修改索引时粗心大意而导致的副作用。

**2. 将Index看作有序集合**

Pandas 对象被设计用于实现许多操作，如连接（join）数据集，其中会涉及许多集合操作。
<br>Index 对象遵循Python 标准库的集合（set）数据结构的许多习惯用法，包括并集、交集、
差集等：

In [43]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [44]:
indA & indB # 交集

Int64Index([3, 5, 7], dtype='int64')

In [45]:
indA | indB # 并集

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [46]:
indA ^ indB # 异或

Int64Index([1, 2, 9, 11], dtype='int64')

这些操作还可以通过调用对象方法来实现，例如indA.intersection(indB)。