**NumPy库和pandas库主要用于处理一维及二维的表格数据，而Matplotlib库是数据可视化的工具。**

# 二、pandas库

pandas库是基于NumPy库的一个开源Python库，广泛应用于完成数据快速分析、数据清洗和准备等工作，它的名字来源于“panel data”（面板数据）。pandas库提供了非常直观的数据结构及强大的数据管理和数据处理功能，某种程度上可以把pandas库看成Python版的Excel。

## （1）二维数据表格DataFrame的创建
与NumPy库相比，pandas库更擅长处理二维数据。pandas库主要有Series和DataFrame两种数据结构。Series类似于通过NumPy库创建的一维数组，不同的是Series对象不仅包含数值，还包含一组索引，但Series单独使用相对较少，学习pandas库主要是为了使用它提供的DataFrame数据结构。DataFrame是一种二维表格数据结构，可以将其看成一个Excel表格。

In [30]:
import pandas as pd
s1 = pd.Series(['张三', '李四', '王二'])
print(s1)

0    张三
1    李四
2    王二
dtype: object


### 通过列表创建DataFrame

In [31]:
a = pd.DataFrame([[1,2], [3, 4], [5, 6]])
print(a)

   0  1
0  1  2
1  3  4
2  5  6


In [32]:
# 创建DataFrame时自定义列索引和行索引的名称
a = pd.DataFrame([[1,2], [3, 4], [5, 6]], 
                 columns=['date', 'score'], 
                 index=['A','B','C'])
print(a)

   date  score
A     1      2
B     3      4
C     5      6


In [33]:
# 创建DataFrame还可以采用如下方式
a = pd.DataFrame() # 创建一个空DataFrame 
date = [1, 3, 5]
score = [2, 4, 6]
a['date'] = date
a['score'] = score
print(a)

   date  score
0     1      2
1     3      4
2     5      6


### 通过字典创建DataFrame

In [34]:
# 默认字典键为列索引
b = pd.DataFrame({'a':[1,3,5],'b':[2, 4, 6]}, index=['x', 'y', 'z'])
print(b)
print(b.T)

   a  b
x  1  2
y  3  4
z  5  6
   x  y  z
a  1  3  5
b  2  4  6


In [35]:
# 如果想让字典键变成行索引，可以使用from_dict()函数将字典转换成DataFrame，并同时设置orient参数为index
import pandas as pd
b = pd.DataFrame.from_dict({'a':[1,3,5],'b':[2, 4, 6]}, orient = "index")
print(b)

   0  1  2
a  1  3  5
b  2  4  6


In [36]:
# 除了使用from_dict()函数的orient参数外，还可以通过DataFrame的T属性对DataFrame进行转置
b = pd.DataFrame({'a': [1, 3, 5], 'b': [2, 4, 6]})
print(b)
print(b.T)

   a  b
0  1  2
1  3  4
2  5  6
   0  1  2
a  1  3  5
b  2  4  6


### 通过二维数组创建DataFrame

In [38]:
d = pd.DataFrame(np.arange(12).reshape(3, 4), 
                 index=[1,2,3], 
                 columns=['A', 'B', 'C', 'D'])
print(d)

   A  B   C   D
1  0  1   2   3
2  4  5   6   7
3  8  9  10  11


### 修改行索引或列索引名称

In [47]:
a = pd.DataFrame([[1,2], [3,4]], columns=['date', 'score'], index = ['A', 'B'])
print(a)

   date  score
A     1      2
B     3      4


In [50]:
b = a.rename(index={'A':'阿里', 'B':'腾讯'}, columns={'date': '日期', 'score':'分数'})
print(a)
print(b)

   date  score
A     1      2
B     3      4
    日期  分数
阿里   1   2
腾讯   3   4


rename()函数是用新索引名新建一个DataFrame，未改变a的内容，这里将新DataFrame赋给a来改变其内容，可以设置inplace参数为True来实现真正的重命名

In [52]:
a.rename(index={'A':'阿里', 'B':'腾讯'}, columns={'date':'日期','score':'分数'}, inplace=True) 
print(a)
print(a.index.values)

    日期  分数
阿里   1   2
腾讯   3   4
['阿里' '腾讯']


In [53]:
# 如果想把行索引变成某列的内容，可以使用set_index()函数
a = a.set_index('日期')
print(a)

    分数
日期    
1    2
3    4


In [55]:
# 如果此时想把行索引换成数字索引，则可以使用reset_index()函数
a = a.reset_index()
print(a)

   index  日期  分数
0      0   1   2
1      1   3   4


 ## （二）Excel工作簿等文件的读取和写入
 
几个比较常用的参数：sheet_name用于指定要读取的工作表，可以是工作表名称，也可以是数字（默认为0，即第1个工作表）；encoding用于指定文件编码方式，一般设置为“utf-8”或“gbk”，以避免中文乱码；index_col用于设置某一列为行索引

### 文件读取

In [2]:
# csv 文件读取
import pandas as pd
data = pd.read_csv('datasets/data.csv', delimiter=',', encoding='utf-8')  # data为DataFrame结构
data.head()  # 通过head()可以查看前5行数据，如果写成head(10)则可以查看前10行数据

Unnamed: 0,date,score,price
0,2018-09-03,70,23.55
1,2018-09-04,75,24.43
2,2018-09-05,65,23.41
3,2018-09-06,60,22.81
4,2018-09-07,70,23.21


In [5]:
# xlsx 文件读取
import pandas as pd
data = pd.read_excel('datasets/data.xlsx', sheet_name=0)  # data为DataFrame结构
data.head()  # 通过head()可以查看前5行数据，如果写成head(10)则可以查看前10行数据

Unnamed: 0,date,score,price
0,2018-09-03,70,23.55
1,2018-09-04,75,24.43
2,2018-09-05,65,23.41
3,2018-09-06,60,22.81
4,2018-09-07,70,23.21


### 文件写入

常用参数有：sheet_name用于指定工作表名称；index用于指定是否写入行索引信息，默认为True，即将行索引信息写入输出文件的第1列，若设置为False，则忽略行索引信息；columns用于指定要写入的列；encoding用于指定编码方式。

In [7]:
# 先创建一个DataFrame
data = pd.DataFrame([[1,2], [3, 4], [5, 6]], columns=['A列','B列'])
# 将DataFrame导入到Excel当中
data.to_excel('datasets/data_yao.xlsx', index=False)

In [8]:
# 先创建一个DataFrame
data = pd.DataFrame([[1,2], [3, 4], [5, 6]], columns=['A列','B列'])
# 将DataFrame导入到csv当中
data.to_csv('datasets/data_yao.csv', index=False, encoding="utf_8_sig”")

## （三）数据的选取与处理
创建了DataFrame格式的表格之后，就可以对其中的数据进行进一步的选取和处理

In [53]:
# 创建一个3行3列的DataFrame，行索引设定为r1、r2、r3，列索引设定为c1、c2、c3
import pandas as pd
data = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3'])
print(data)

    c1  c2  c3
r1   1   2   3
r2   4   5   6
r3   7   8   9


In [54]:
# 也可通过下述方法，以数字1为起点，数字10为终点（终点取不到），生成1～9共9个数字，作为DataFrame中的数据
data = pd.DataFrame(np.arange(1, 10).reshape(3,3), index=['r1', 'r2', 'r3'], columns=['c1', 'c2', 'c3'])
print(data)

    c1  c2  c3
r1   1   2   3
r2   4   5   6
r3   7   8   9


### 按列选取数据

In [55]:
# 选择单列数据
a = data['c1']
print(a)

r1    1
r2    4
r3    7
Name: c1, dtype: int64


In [15]:
# 因为通过data['c1']选取一列时返回的是一个一维的Series类型的数据，以下加索引按列选取数据，返回一个二维的表格数据
b = data[['c1']]
print(b)

    c1
r1   1
r2   4
r3   7


In [32]:
# 选取多列，需要在中括号[]中指定列表，选取多列，需要在中括号[]中指定列表
c = data[['c1', 'c3']]
print(c)

    c1  c3
r1   1   3
r2   4   6
r3   7   9


### 按行选取数据

In [16]:
# 选取第2到3行的数据，序号从0开始，左闭右开
a = data[1:3]
print(a)

    c1  c2  c3
r2   4   5   6
r3   7   8   9


In [52]:
# pandas库推荐使用iloc方法来根据行序号选取数据，这样更直观
b = data.iloc[1:3]
print(b)

Empty DataFrame
Columns: [c1, c2, c3, c4]
Index: []


In [17]:
# pandas库推荐使用iloc方法来根据行序号选取数据，这样更直观
c= data.iloc[-1]
print(c)

c1    7
c2    8
c3    9
Name: r3, dtype: int64


In [18]:
# 还可以通过loc方法根据行的名称来选取数据
d = data.loc[['r2', 'r3']]
print(d)

    c1  c2  c3
r2   4   5   6
r3   7   8   9


In [19]:
# 可以通过head()函数选取前5行数据
e = data.head()
print(e)

    c1  c2  c3
r1   1   2   3
r2   4   5   6
r3   7   8   9


### 按区块选取数据

In [20]:
# 选取某几行的某几列数据，例如，选取c1和c3列的前两行数据，先通过iloc选取行，再选取列
b = data.iloc[0:2][['c1', 'c2']]
print(b)

    c1  c2
r1   1   2
r2   4   5


In [21]:
# 选取单个值，选取c3列第1行的数据
c = data.iloc[0]['c3']
print(c)

3


In [56]:
# 通过iloc和loc方法来同时选择行和列，代码如下：
d = data.loc[['r1', 'r2'], ['c1', 'c3']]  
e = data.iloc[0:2, [0, 2]]  
print(d)
print(e)

    c1  c3
r1   1   3
r2   4   6
    c1  c3
r1   1   3
r2   4   6


### 数据筛选

In [57]:
# 通过在中括号里设定筛选条件可以过滤行，筛选c1列中数字大于1的行
a = data[data['c1'] > 4]
print(a)

    c1  c2  c3
r3   7   8   9


In [58]:
# 如果有多个筛选条件，则可以通过“&”符号（表示“且”）或“|”（表示“或”）连接，比如这边筛选，c1列数字大于1且c2列数字小于8的行，代码如下，注意要记得加判断条件两旁的小括号。
b = data[(data['c1'] > 1) & (data['c2'] < 8)]
b

Unnamed: 0,c1,c2,c3
r2,4,5,6


### 数据整体情况查看

In [26]:
# 通过DataFrame的shape属性可以获取表格整体的行数和列数
data.shape

(3, 3)

In [27]:
# 通过describe()函数可以快速查看表格每一列的数据个数、平均值、标准差、最小值、25分位数、50分位数、75分位数、最大值等信息
data.describe()

Unnamed: 0,c1,c2,c3
count,3.0,3.0,3.0
mean,4.0,5.0,6.0
std,3.0,3.0,3.0
min,1.0,2.0,3.0
25%,2.5,3.5,4.5
50%,4.0,5.0,6.0
75%,5.5,6.5,7.5
max,7.0,8.0,9.0


In [28]:
# 通过value_counts()函数可以快速查看某一列有几种数据，以及每种数据出现的频次
data['c1'].value_counts()

1    1
4    1
7    1
Name: c1, dtype: int64

### 数据的运算、排序与删除

In [48]:
# 数据的运算
data['c4'] = data['c3']-data['c1']
data.head()

Unnamed: 0,c1,c2,c3,c4
r2,4,5,6,2


In [47]:
# 数据排序
a = data.sort_values(by='c2', ascending=False)
a

Unnamed: 0,c1,c2,c3,c4
r2,4,5,6,2


In [46]:
#使用sort_index()函数可以根据行索引进行排序, 以下按行索引进行升序排序
a = a.sort_index()
a

Unnamed: 0,c2,c4
r2,5,2


##### 数据删除
使用drop()函数可以删除表格中的指定数据, DataFrame.drop(index=None, columns=None, inplace=False)
drop函数常用的几个参数解释如下：index用于指定要删除的行；columns用于指定要删除的列；inplace默认为False，表示该删除操作不改变原表格，而是返回一个执行删除操作后的新表格，如果设置inplace为True，则会直接在原表格中执行删除操作

In [44]:
# 删除单列数据
a = data.drop(columns='c1')
# 删除多列数据
a = data.drop(columns=['c1', 'c3'])
print(a)

    c2  c4
r2   5   2


In [60]:
# 删除行数据，例如，删除第1行和第3行
a = data.drop(index=['r1', 'r3'])
print(a)
data

    c1  c2  c3
r2   4   5   6


Unnamed: 0,c1,c2,c3
r1,1,2,3
r2,4,5,6
r3,7,8,9


In [62]:
# 如果想改变原表格data的结构，可以设置inplace参数为True
data.drop(index=['r1','r3'], inplace=True)
data

Unnamed: 0,c1,c2,c3
r2,4,5,6


## 数据表拼接
pandas库还提供了一些高级功能，其中的数据合并与重塑为两个数据表的拼接提供了极大的便利，主要涉及merge()、concat()、append()等函数

In [64]:
import pandas as pd
df1 = pd.DataFrame({'公司': ['万科', '阿里', '百度'], '分数': [90, 95, 85]})
df2 = pd.DataFrame({'公司': ['万科', '阿里', '京东'], '股价': [20, 180, 30]})
print(df1)
print(df2)

   公司  分数
0  万科  90
1  阿里  95
2  百度  85
   公司   股价
0  万科   20
1  阿里  180
2  京东   30


In [65]:
df3 = pd.merge(df1, df2, how='right')
print(df3)

   公司    分数   股价
0  万科  90.0   20
1  阿里  95.0  180
2  京东   NaN   30


In [64]:
df3 = pd.merge(df1, df2, left_index=True, right_index=True)
print(df3)

  公司_x  分数 公司_y   股价
0   万科  90   万科   20
1   阿里  95   阿里  180
2   百度  85   京东   30


In [65]:
# **补充知识点：根据行索引合并的join()函数**
df3 = df1.join(df2, lsuffix='_1', rsuffix='_2')
print(df3)

  公司_1  分数 公司_2   股价
0   万科  90   万科   20
1   阿里  95   阿里  180
2   百度  85   京东   30


In [67]:
# (2) concat()函数
df3 = pd.concat([df1,df2], axis=1)
print(df3)

   公司  分数  公司   股价
0  万科  90  万科   20
1  阿里  95  阿里  180
2  百度  85  京东   30
