## 数据分析工具Pandas

Pandas是一个基于NumPy的Python库，一个专门为了解决数据分析的工具。

### 学习目标

* 掌握 Pandas 两种数据结构：Series 和 DataFrame

* 掌握 Pandas 索引的相关操作

* 掌握 Pandas 的常见操作：算术运算、排序、统计计算等

* 掌握层次化索引的操作

* 掌握 Pandas 读写数据的方式



### Pandas 两种数据结构

#### Series 
Series是一个类似于一维数组的对象，可以保存任何类型的数据，主要由一组数据和索引两部分组成。其索引位于左边，数据位于右边。

In [1]:
import numpy as np
import pandas as pd

In [2]:
ser1 = pd.Series([1, 2, 3, 4, 5])
ser1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# 为数据指定索引
ser2 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [4]:
# 使用 dict 进行构建 Series 对象
dict_data = {2018: 18.0, 2019: 19.8, 2020: 20.6}
ser3 = pd.Series(dict_data)
ser3

2018    18.0
2019    19.8
2020    20.6
dtype: float64

In [5]:
# 获取 Series 对象的索引，通过 index 属性，返回的一个索引对象
ser3.index

Int64Index([2018, 2019, 2020], dtype='int64')

In [6]:
# 获取 Series 对象的数据，通过 values 属性，返回一个数组对象
ser3.values

array([18. , 19.8, 20.6])

In [7]:
# 获取索引为1019的数据
ser3[2019]

19.8

In [8]:
ser3 * 2

2018    36.0
2019    39.6
2020    41.2
dtype: float64

#### DataFrame 
DataFrame是一个类似于二维数组或表格的对象，与Series类似，DataFrame也是由数据和索引两部分组成，区别是DataFrame不仅有行索引，还有列索引。

In [9]:
# 创建一个数组
arr = np.array([['a', 'b', 'c'], ['d', 'e', 'f']])
arr

array([['a', 'b', 'c'],
       ['d', 'e', 'f']], dtype='<U1')

In [10]:
# 通过数组创建 DataFrame 对象
df1 = pd.DataFrame(arr)
df1

Unnamed: 0,0,1,2
0,a,b,c
1,d,e,f


In [11]:
# 指定列索引
df2 = pd.DataFrame(arr, columns=['no1', 'no2', 'no3'])
df2

Unnamed: 0,no1,no2,no3
0,a,b,c
1,d,e,f


In [12]:
pd.DataFrame?

In [13]:
# 通过 dict 创建 DataFrame 对象
dict1 = {'a': [1, 2], 'b': [3, 4]}
df3 = pd.DataFrame(dict1)
df3

Unnamed: 0,a,b
0,1,3
1,2,4


In [14]:
df3.a

0    1
1    2
Name: a, dtype: int64

In [15]:
b = df3.b
b

0    3
1    4
Name: b, dtype: int64

In [16]:
type(b)

pandas.core.series.Series

In [17]:
# 添加一列数据
df3['c'] = [5, 6]
df3

Unnamed: 0,a,b,c
0,1,3,5
1,2,4,6


In [18]:
# 删除一列 del
del df3['b']
df3

Unnamed: 0,a,c
0,1,5
1,2,6
