# `Pandas` 
<div>
<img src='https://pandas.pydata.org/static/img/pandas.svg' width='400'/>
</div>

-----------------
主讲人：李显祥

大气科学学院

In [5]:
import pandas as pd
import numpy as np

%matplotlib inline

`Pandas` 是一个优秀的数据分析工具包，主要用来分析二维数据和时间序列。它建构在 `Numpy` 之上，但是能处理混合类型的数据。 

## 1. `Pandas` 数据结构

`Pandas` 主要支持两种数据结构：

- `Series`: 一维带标签的数组，由数据类型相同的元素构成，具有列表和字典的特性。
- `DataFrame`: 二维数据，由索引相同的 `Series` 构成的的二维数据结构，类似表格

### 1.1. `Series`

四个重要属性:

- `Series.index`
- `Series.name`
- `Series.values`
- `Series.dtype`

In [6]:
s = pd.Series(np.random.randn(5),
              index=['a','b','c','d','e'],
              name='这是一个Series',dtype='float64')
s

a    0.397281
b    1.168841
c   -2.057001
d   -0.374042
e    1.449496
Name: 这是一个Series, dtype: float64

In [7]:
s.values

array([ 0.39728108,  1.16884063, -2.05700062, -0.37404217,  1.44949564])

In [8]:
s.name

'这是一个Series'

In [9]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [11]:
s.dtype

dtype('float64')

In [22]:
data2 = { 'a':1, 'b':2,'c':3 }
index2 = ['a','b','d']
s2 = pd.Series(data=data2, index=index2)  # 未指定 name
s2      # 缺失项填充NaN（NaN：not a number 为 pandas缺失值标记）

a    1.0
b    2.0
d    NaN
dtype: float64

### 1.2. `DataFrame`

四个重要属性:

- `DataFrame.index`
- `DataFrame.columns`
- `DataFrame.values`
- `DataFrame.dtypes`

In [12]:
df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},
                 index=list('一二三四五'))
df

Unnamed: 0,col1,col2,col3
一,a,5,1.3
二,b,6,2.5
三,c,7,3.6
四,d,8,4.6
五,e,9,5.8


In [23]:
data1 = np.array([[1,2,3],
                  [4,5,6]] )
index1 = ['a','b']
columns1 = ['A','B','C']
df2 = pd.DataFrame(data=data1, index=index1, columns=columns1)
df2

Unnamed: 0,A,B,C
a,1,2,3
b,4,5,6


从 `DataFrame` 取出一列为 `Series`

In [14]:
df['col1']

一    a
二    b
三    c
四    d
五    e
Name: col1, dtype: object

In [15]:
df.values

array([['a', 5, 1.3],
       ['b', 6, 2.5],
       ['c', 7, 3.6],
       ['d', 8, 4.6],
       ['e', 9, 5.8]], dtype=object)

In [16]:
df.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [17]:
df.index

Index(['一', '二', '三', '四', '五'], dtype='object')

In [18]:
df.dtypes

col1     object
col2      int64
col3    float64
dtype: object

In [19]:
df.shape

(5, 3)

In [21]:
df.T

Unnamed: 0,一,二,三,四,五
col1,a,b,c,d,e
col2,5,6,7,8,9
col3,1.3,2.5,3.6,4.6,5.8


`Series` 可以转化为 `DataFrame`, 它只有一列

In [20]:
s.to_frame()

Unnamed: 0,这是一个Series
a,0.397281
b,1.168841
c,-2.057001
d,-0.374042
e,1.449496


### 1.3. `Index`

- `Index` 是构成和操作 `Series`、`DataFrame` 的关键。
- 索引类似于元组，其本身是不能赋值修改的；
- 其在数据进行整体运算时，辅助自动对齐，这是 `Pandas` 不同于其他数据处理库的一大特征。
- 多层索引可以帮助改变表的形态，如透视表（pivot table）等。




三个重要属性:

- `Index.name`
- `Index.values`
- `Index.dtype`

In [24]:
data = ['a','b','c']
index = pd.Index(data, name = 'name1')
index

Index(['a', 'b', 'c'], dtype='object', name='name1')

In [25]:
index[0]

'a'

In [26]:
index[[0, 2]]

Index(['a', 'c'], dtype='object', name='name1')

In [27]:
index[[True, False, True]]

Index(['a', 'c'], dtype='object', name='name1')

In [28]:
index.drop(['a','b'])

Index(['c'], dtype='object', name='name1')

In [29]:
index

Index(['a', 'b', 'c'], dtype='object', name='name1')

## 2. `Pandas` 数据类型

- 这些数据类型实际上都是 `NumPy` 带来的
- 所以使用这些类型时，要加上前缀 `np` 
- 基本数据类型中不包括字符串类型，字符串都是存储为 `object` 型
- 新版本引入了字符串类型 `string`，但是还不是很成熟；暂时还是采用之前的做法（即用 `object` 表示）


- `bool` 布尔型
- `int` 整型 
  - 有符号整型 `byte`, `short`, `intc`, `int_`, `longlong`, `intp`, `int8`, `int16`, `int32`, `int64` 
  - 无符号整型 `ubyte`, `ushort`, `uintc`, `uint`, `ulonglong`, `uintp`, `uint8`, `uint16`, `uint32`, `uint64`
- `float` 浮点型：`single`, `double`, `float_`, `longfloat`, `float16`, `float32`, `float64`, `float96`, `float128`
- `complex` 复数型：`csingle`, `complex_`, `clongfloat`, `complex64`, `complex128`, `complex196`,`complex256`
  

- `object` 一般类型：适合所有非 `bool`、`int`、`float` 和 `complex`的类型，包括字符串

`Pandas` 新版本引入了几个新的数据类型：
- `Categorical` 类别类型
  - 取固定几种值；
  - 可以定义序，序的形式与实数序或字典序可以都不同；
  - 即使是数值表示，数值运算可能也无意义，与离散数值型不一定相同。

  `pd.Categorical(values, categories=None, ordered=False)`
  - values: 类别序列；
  - categories：自定义的类别序列；
  - ordered：类别是否定义顺序，默认增序。
- `string` 字符串类型

In [32]:
c = pd.Categorical([2,1,1,3], ordered=True) 
c


[2, 1, 1, 3]
Categories (3, int64): [1 < 2 < 3]

In [34]:
d = pd.Categorical([2,1,1,3], categories=[3,2], ordered=True) 
d

[2, NaN, NaN, 3]
Categories (2, int64): [3 < 2]

类别类型有两个重要属性：
- `categories`
- `ordered`

In [37]:
d.categories  # 类别

Int64Index([3, 2], dtype='int64')

In [38]:
d.ordered # 是否有序

True

## 3. 