# Lesson 30.Pandas入门

&emsp;&emsp;如果说，NumPy是Python通用科学计算库，那么Pandas则是建立在NumPy基础之上的面板数据（panel data）和数据分析（data analysis）通用工具包，当然，这也就是Pandas名称的由来。相比于NumPy提供了较为基础的数组结构数据，Pandas则提供了主要面向面板数据（或者说表格数据）分析处理的数据结构和工具，二维表格数据可以说是数据分析和大多数机器学习场景下最常用的数据结构了，这也是为什么对于大多数Python数据分析师、数据挖掘工程师来说，Pandas会成为最常用的工具包之一的原因。

&emsp;&emsp;在使用Pandas之前必须确保已经安装了NumPy，当然，如果是按照课程要求安装的Anaconda，则就已经同时安装好了NumPy和Pandas。我们可以按照以下方式导入Pandas：

In [2]:
import numpy as np                 # 需要同时导入Numpy
import pandas as pd

和之前的numpy一样，我们可以通过version方法查看Pandas版本号

In [5]:
pd.__version__

'1.2.0'

### 1.Pandas对象类型简介

&emsp;&emsp;Pandas核心定义了三类对象，分别是Series、Indes和DataFrame。其中，Series和Numpy中array非常类似，相当于是array的改进版，其中最重要的区别就是Series能够提供显示索引，从而为表结构的行标和列标提供了基础；而Index则是一种特殊的序列，可以看成是一种显示索引的集合；而DataFrame则是二维表结构数据的直接表示，是多个Series共同构成的数据结构，同时也是实际使用Pandas过程中最常用的数据结构。

&emsp;&emsp;为了能够更好的理解和使用Pandas，我们将对比Array，从最基础的Series入手进行讲解。

### 2.Series对象创建及基本使用

&emsp;&emsp;Pandas 的 Series 对象是一个带索引数据构成的一维数组，其创建方法和array非常类似：通过pd.Series函数并输入一个序列来完成创建。

In [13]:
data = pd.Series([1, 3, 2])
data

0    1
1    3
2    2
dtype: int64

当然，你也可以通过array来创建series

In [17]:
a = np.array([1, 3 ,2])
a

array([1, 3, 2])

In [18]:
pd.Series(a)         # 也可将array转化为Serie

0    1
1    3
2    2
dtype: int32

由于Series和array具有相同特性，Series也支持类似array的索引方式

In [20]:
data[1]

3

In [21]:
data[1:]

1    3
2    2
dtype: int64

更进一步来说，Series还能够转化为array

In [22]:
data.values

array([1, 3, 2], dtype=int64)

注意观察，Series和array一样，也有dtype属性，同样，我们可以通过dtype方法来进行查看

In [25]:
data.dtype

dtype('int64')

In [26]:
data.values.dtype

dtype('int64')

由于Series就是基于array构建的对象，因此二者还有许多类似的地方，例如广播运算：

In [27]:
data + 1

0    2
1    4
2    3
dtype: int64

In [28]:
data > 1

0    False
1     True
2     True
dtype: bool

In [29]:
data[data > 1]

1    3
2    2
dtype: int64

以及一些科学计算函数和统计函数等

In [33]:
np.mean(data)

2.0

In [32]:
np.exp(data)

0     2.718282
1    20.085537
2     7.389056
dtype: float64

### 3.Series的index

&emsp;&emsp;Series和array的最显著区别就在于，NumPy 数组通过**隐式定义**的整数索引获取数值，而 Pandas的Series对象用一种**显式定义**的索引与数值关联。式索引的定义让 Series 对象拥有了更强的能力。例如，索引不再仅仅是整数，还可以是任意想要的类型。如果需要，完全可以用字符串定义索引：

In [36]:
# 利用insex参数，在创建series时设置显式索引
data = pd.Series([1, 3, 2], index=['a', 'b', 'c'])

In [37]:
data

a    1
b    3
c    2
dtype: int64

然后，我们就可以利用index来进行索引

In [38]:
data['a']

1

也可以使用不连续或不按顺序的索引：

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
index=[2, 5, 3, 7])

In [5]:
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [6]:
data[5]

0.5

根据索引的名称来索引序列中的某一个元素，和字典非常类似，因此，有的时候我们也会称Series为特殊的字典，甚至，我们可以用字典来创建Series对象

In [5]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

每一种形式都可以通过显式指定索引筛选需要的结果：

In [6]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

当然，我们可以通过index属性来查看每个Series的Index。

In [39]:
data.index

Index(['a', 'b', 'c'], dtype='object')

此时返回的结果就是Pandas中的index对象，初步观察，我们可以发现index对象和range对象类似，我们可以通过序列对象的创建函数令其显式化表现。

In [40]:
list(data.index)

['a', 'b', 'c']

In [96]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

当然，我们就可以使用in来判断是否包含某元素

In [97]:
'a' in s1

True

In [99]:
s1['a'] = 10

In [100]:
s1

a    10
b     2
c     3
dtype: int64

以及和字典类似，使用get方法判断是否包含某元素

In [102]:
s1.get('b', 'No such key!')

2

In [103]:
s1.get('f', 'No such key!')

'No such key!'

### 4.Index对象类型介绍

#### 4.1 Index的数组属性

&emsp;&emsp;Series 和 DataFrame 对象都使用便于引用和调整的显式**索引**。Pandas的Index 对象是一个很有趣的数据结构，可以将它看作是一个**不可变数组**或**有序集合**（实际上是一个多集，因为 Index 对象可能会包含重复值）。这两种观点使得 Index 对象能呈现一些有趣的功能。让我们用一个简单的整数列表来创建一个 Index 对象：

In [45]:
ind = pd.Index([2, 3, 5, 7, 11])

In [46]:
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

#### 1.将Index看作不可变数组

Index 对象的许多操作都像数组。例如，可以通过标准 Python 的取值方法获取数值，也可以通过切片获取数值：

In [47]:
ind[1]

3

In [48]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Index 对象还有许多与 NumPy 数组相似的属性：

In [49]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Index 对象与 NumPy 数组之间的不同在于， Index 对象的索引是不可变的，也就是说不能通过通常的方式进行调整：

In [50]:
ind[1] = 0

TypeError: Index does not support mutable operations

Index 对象的不可变特征使得多个 DataFrame 和数组之间进行索引共享时更加安全，尤其是可以避免因修改索引时粗心大意而导致的副作用。

#### 4.2 Index的集合属性

&emsp;&emsp;Pandas 对象被设计用于实现许多操作，如连接（join）数据集，其中会涉及许多集合操作。Index 对象遵循 Python 标准库的集合（ set ）数据结构的许多习惯用法，包括并集、交集、差集等：（本部分功能目前只作演示用途，部分Index功能将在未来被抛弃）

In [51]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [52]:
indA & indB # 交集

  """Entry point for launching an IPython kernel.


Int64Index([3, 5, 7], dtype='int64')

In [53]:
indA | indB # 并集

  """Entry point for launching an IPython kernel.


Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [59]:
indA ^ indB # 异或

  """Entry point for launching an IPython kernel.


Int64Index([1, 2, 9, 11], dtype='int64')

In [90]:
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([2, 3, 4], index=['b', 'c', 'd'])

In [91]:
s1

a    1
b    2
c    3
dtype: int64

In [92]:
s2

b    2
c    3
d    4
dtype: int64

In [93]:
s1 & s2

a    False
b     True
c     True
d    False
dtype: bool

In [94]:
s1[s1 & s2]

b    2
c    3
dtype: int64

正是由于index拥有类似集合的属性，因此series也具备了标签对齐的功能。

In [106]:
s1 + s2

a    NaN
b    4.0
c    6.0
d    NaN
dtype: float64

&emsp;未对齐 Series 之间的操作结果将包含所涉及的索引的并集。如果在其中一个 Seires 中找不到标签，结果将被标记为 NaN。

注意：通常不同索引对象之间的操作的默认结果产生索引的并集，以避免信息丢失。因为尽管数据丢失，但拥有索引标签也可以作为计算的重要信息。当然也可以选择通过 .dropna() 功能删除丢失数据的标签。

In [108]:
s1[1:] + s2[:-1]

b    4
c    6
dtype: int64

In [109]:
(s1+s2).dropna()

b    4.0
c    6.0
dtype: float64

### 5.Series的name属性

我们可以在创建Series时，为其命名

In [110]:
s = pd.Series(np.random.randn(5), name='something')
s

0    0.800099
1    0.981630
2   -0.767200
3    1.510698
4   -0.141407
Name: something, dtype: float64

In [111]:
s.name

'something'

当然，也可以使用rename方法修改名称

In [112]:
s.rename('d')

0    0.800099
1    0.981630
2   -0.767200
3    1.510698
4   -0.141407
Name: d, dtype: float64

In [113]:
s2 = s.rename("different")
s2

0    0.800099
1    0.981630
2   -0.767200
3    1.510698
4   -0.141407
Name: different, dtype: float64

这里需要注意的是，s 和 s2 是指向不同的对象的

In [115]:
id(s)

2815680738824

In [116]:
id(s2)

2815673910152