# Pandas 中的数据对象

## 0. Pandas 简介

从本节开始，我们将学习如何使用 **Pandas** 库进行数据的处理。关于 Pandas 库的具体使用，可以参考Pandas的官方网站说明：http://pandas.pydata.org   

<img src='resource/官网.png' style='zoom:60%'>


1. 什么是Pandas  

Pandas 是基于 NumPy 开发的数据科学库，最早是用来做金融数据处理和分析的，因此 Pandas 库在处理```时间序列（Time Series）```方面具有很大的优势。简单来说，```Pandas是一个提供高性能、易用数据类型的分析工具的库。```Pandas提供了两个特有结构的数据对象，分别是```Series```和```DataFrame```。Series 可以理解为一维数组，DataFrame 可以理解为二维数组，是用于存放表格形式的数据。除此之外，还提供了非常多的函数用于操作这两种数据类型。 ```Pandas 是基于 NumPy 实现的，它经常和 NumPy 、Matplotlib (绘图库)一起使用，完成灵活的数据分析任务。```

2. 有了 NumPy 为什么还需要 Pandas ？  

尽管 NumPy 具有很强大的数据处理功能，但是它的缺点在于灵活性比较差。真实世界的数据含有标签和缺失值，而且我们经常要对维度不同的数据集做合并、分组、等操作，NumPy 显得有些力不从心，而 Pandas 更擅长于这些数据处理的任务。

## 1. 导入 Pandas 库，并查看当前版本 

Anaconda已自动安装Pandas库。如果使用了虚拟环境或者其他Python开发环境而没有自带Pandas库，请自行安装。  
>```pip install pandas``` 或者
```conda install pandas```

In [1]:
import pandas
pandas.__version__

'1.2.5'

正如我们导入 NumPy 时给它起了一个别名 ``np`` 一样, 我们一般也给 Pandas 起别名为 ``pd``:（pd不是强制的，但属于约定俗成的习惯，建议不要自己修改。）

In [2]:
import pandas as pd

## 2.  Pandas 的数据对象

NumPy 中的数据类型 ndarray 属于基础数据类型，侧重于数据的结构表达，即数据之间的关系；
Pandas 中的数据类型 Series 和 DataFrame 属于扩展数据类型，是在ndarray的基础上建立的，侧重于数据的应用表达，即数据与索引之间的关系。

In [3]:
import numpy as np
import pandas as pd

### 2.1 Series  
```Series``` 类型由一组数据及其相关的索引组成。

### 2.1.1 Series 数据对象的创建

#### 1）Python列表

In [4]:
a = pd.Series([0.25, 0.5, 0.75, 1.0])
a

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

```Series``` 是由值序列和它对应的索引序列共同构成的。创建Series类型时只传入了值序列，自动生成了对应的索引序列，称之为**自动索引**。

In [5]:
b = pd.Series([0.25, 0.5, 0.75, 1.0],index=['a','b','c','d'])
b

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

当使用关键字参数 index 传入列表时，生成的Series数据对象具有**自定义索引**。但此时**自动索引**仍然是生效的。

In [6]:
b[0]

0.25

In [7]:
b['a']

0.25

#### 2) 标量值

In [8]:
pd.Series(25, index=['a','b','c','d'])

a    25
b    25
c    25
d    25
dtype: int64

#### 3) Python字典

In [9]:
pd.Series({'a':1,'b':2,'c':3},index=['b','c','a'])

b    2
c    3
a    1
dtype: int64

In [10]:
pd.Series({'a':1,'b':2,'c':3},index=['b','c','a','d'])

b    2.0
c    3.0
a    1.0
d    NaN
dtype: float64

**NaN**表示 ** Not a Number**,即不是一个数字，类似于 NumPy 中的 np.nan。

#### 4）NumPy 中的 ndarray

In [5]:
pd.Series(np.arange(5),index=np.arange(9,4,-1))

9    0
8    1
7    2
6    3
5    4
dtype: int32

#### 5) 其他函数

In [12]:
pd.Series(list('HelloPython'))

0     H
1     e
2     l
3     l
4     o
5     P
6     y
7     t
8     h
9     o
10    n
dtype: object

### 2.1.2 Series 数据对象的基本操作

#### 1）类似 NumPy 中 ndarray 的操作

In [13]:
s = pd.Series([ord(i) for i in 'Python'],index=list('Python'))
s

P     80
y    121
t    116
h    104
o    111
n    110
dtype: int64

In [14]:
s.index

Index(['P', 'y', 't', 'h', 'o', 'n'], dtype='object')

In [15]:
s.values

array([ 80, 121, 116, 104, 111, 110], dtype=int64)

可以通过 index 和 values 属性获取 Series 数据对象的索引和值序列；其中索引是一个特殊的数据类型 **Index**；值序列的数据类型是 NumPy 中的ndarray。

In [16]:
type(s.index)

pandas.core.indexes.base.Index

In [17]:
type(s.values)

numpy.ndarray

In [18]:
s[0]

80

In [19]:
s['P']

80

In [20]:
s[:3]

P     80
y    121
t    116
dtype: int64

自动索引和自定义索引都可以使用，但不能混用。

#### 2)  类似字典的操作

Series 对象也可被认为是 Python 字典的一种。字典能够将一组键（key）映射到另一组值（value）。Series也具备此种功能，可将一组**同类型**的键（typed key）映射到另一组同类型的值（typed value）。正是因为同种类型的约束，因此 Series 作为字典远比 Python内置的字典在操作数据时更加高效。

In [22]:
'P' in s # 判断 s 中是否包含索引 ‘P’

True

这种判断只适用于自定义索引，并不会判断自动索引。

In [23]:
s.get('f',100) # 类似字典的 get 方法

100

#### 3） Series 类型对齐操作

In [24]:
a = pd.Series([1,2,3],index=['a','b','c'])
b = pd.Series([9,8,7,6],index=['b','c','d','e'])
print(a,b,a+b,sep='\n'+'*'*20+'\n')

a    1
b    2
c    3
dtype: int64
********************
b    9
c    8
d    7
e    6
dtype: int64
********************
a     NaN
b    11.0
c    11.0
d     NaN
e     NaN
dtype: float64


Series 在运算中会自动对齐不同索引的数据。

### 2.2 DataFrame  
```DataFrame``` 类型由共用相同索引的一组列组成。可以理解成表格型的数据类型，每列值得类型可以不同。DataFrame既有行索引，也有列索引，其中行索引称为index，列索引称为columns。DataFrame 常用于表达二维数据，但也可以用于表达多维数据。

<img src='resource/pandas-DataStructure.png'>

### 2.2.1 DataFrame 的创建

#### 1）二维 ndarray

In [25]:
d1 = pd.DataFrame(np.arange(10).reshape(2,5))
d1

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9


#### 2) Python 字典

In [26]:
d2 = pd.DataFrame({'column1':{'id1':'a','id2':'b'},
                   'column2':{'id1':'c','id2':'d'}})
d2

Unnamed: 0,column1,column2
id1,a,c
id2,b,d


In [27]:
d3 = pd.DataFrame({'column1':[1,2,3],'column2':[4,5,6],'column3':[7,8,9]},
                 index=['id1','id2','id3'])
d3

Unnamed: 0,column1,column2,column3
id1,1,4,7
id2,2,5,8
id3,3,6,9


#### 3) 通过 Series 创建 DataFrame

In [6]:
# 美国五个州的面积
area = pd.Series({'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995})
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [7]:
# 美国五个州的人口数量
population = pd.Series({'California': 38332521, 'Texas': 26448193, 
                        'New York': 19651127,'Florida': 19552860,
                        'Illinois': 12882135})
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [8]:
# 汇总为一个DataFrame
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


### 2.2.2 DataFrame 的基本操作

```columns```：通过 columns 属性来获取 （列标签：column label）

In [46]:
states.columns

Index(['population', 'area', 'density'], dtype='object')

```index```： 通过 index 属性来获取 DataFrame 的索引（行标签：row label）

In [48]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

```values```: 通过 values 属性来获取 DataFrame 的数据。

In [9]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]], dtype=int64)

#### 1) 获取一行数据

In [35]:
states.values[0]

array([3.83325210e+07, 4.23967000e+05, 9.04139261e+01])

#### 2) 获取一列数据

In [36]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

#### 3) 根据行和列定位某一个数据

In [10]:
states.loc['California','area']

423967

loc方法是 Series、DataFrame 专有的数据选择器，专门用于指定自定义索引时进行数据选择。所谓的自定义索引在Series里，是我们指定好的index；在DataFrame里就是指定好的index和column名，也可简单理解为行名和列名。

In [11]:
states.loc[:'Florida',:'population']

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860


In [44]:
states.iloc[1:4,1]

Texas       695662
New York    141297
Florida     170312
Name: area, dtype: int64

iloc方法是另一种数据选择器，传入的参数是自动索引。

```思考```：  

loc 方法和 iloc 方法使用时，有什么区别？

#### 4）花式索引

In [14]:
states[states['density'] >= 100]

Unnamed: 0,population,area,density
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121


In [51]:
states[~(states['density'] >= 100)]

Unnamed: 0,population,area,density
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874
Illinois,12882135,149995,85.883763


#### 5) 增加一列

In [13]:
# 计算人口密度，并增加为一个新列（column）
states['density'] = states['population']/states['area']
states

Unnamed: 0,population,area,density
California,38332521,423967,90.413926
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121
Illinois,12882135,149995,85.883763
