In [1]:
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Pandas介绍

* **1 Pandas库简介**
    * 1.1 什么是Pandas
    * 1.2 为什么使用Pandas
    
    
* **2 Pandas 数据结构**
    * **2.1 Series**
        * **2.1.1 Series的创建**
            * pd.Series()
        * **2.1.2 Series的属性**
            * Series.index
            * Series.values
                
    * **2.2 DataFrame**
        * **2.2.1 DataFrame的创建**
            * pd.DataFrame()
            
        * **2.2.2  DataFrame的属性**
            * df.shape
            * df.index
            * df.columns
            * df.values
            * df.T
            * df.head()
            * df.tail()
            
        * **2.2.3  DataFrame索引的设置**
            * 2.2.3.1  修改行列索引值
            * 2.2.3.2  重设索引
                * df.reset_index()
            * 2.2.3.3  以某列值设置为新的索引
                * df.set_index()
                   
    * **2.3 MultiIndex**
        * 2.3.1  创建一个MultiIndex的Series
        * 2.3.2  MultiIndex索引的对象
        * 2.3.3  选取子集
        * 2.3.4  交换分层顺序
            * df.swaplevel()

# 1 Pandas 库简介

## 1.1 什么是Pandas？
Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了**高级数据结构和数据操作工具**，它是使Python成为强大而高效的数据分析环境的重要因素之一。
* 一个强大的分析和操作大型结构化数据集所需的工具集
* 基础是NumPy，提供了高性能矩阵的运算
* 提供了大量能够快速便捷地处理数据的函数和方法
* 应用于数据挖掘，数据分析
* 提供数据清洗功能

## 1.2 为什么使用Pandas?

Numpy已经能够帮助我们处理数据，能够结合matplotlib解决部分数据展示等问题，那么pandas学习的目的在什么地方呢？

numpy能够帮我们处理处理数值型数据，但是这还不够， 很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等。

* 增强图表可读性
* 便捷的数据处理能力
* 读取文件方便
* 封装了matplotlib的画图和numpy的计算能力

# 2 Pandas 数据结构

Pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex。

其中Series是一维数据结构，DataFrame是二维的表格型数据结构，MultiIndex是多维的数据结构，最主要的就是Series和DataFrame。

## 2.1 Series
Series是一个类似于一维数组的数据结构，它能够保存任何类型的数据，比如整数、字符串、浮点数等，主要由一组**数据**和与之相关的**索引**两部分构成。

### 2.1.1 Series的创建
pd.Series(data=None, index=None, dtype=None)
* data：传入的数据，可以是ndarray、list等
* index：索引，必须是唯一的，且与数据的长度相等。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
* dtype：数据的类型

In [2]:
# 指定内容，默认索引
pd.Series(np.arange(10))

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

In [3]:
# 指定内容和索引
pd.Series([1, 3, 5, 7, 9], index=[5, 4, 3, 2, 1])

5    1
4    3
3    5
2    7
1    9
dtype: int64

In [4]:
# 通过字典数据创建,字典的key作为索引，value作为值
color_dict = {'red': 10, 'blue': 20, 'green': 50, 'yellow': 1000}
color = pd.Series(color_dict)
color

red         10
blue        20
green       50
yellow    1000
dtype: int64

### 2.1.2 Series的属性
为了更方便地操作Series对象中的索引和数据，Series中提供了两个属性**index**和**values**。方便演示，就沿用上面新建的color数组。

#### Series.index

In [5]:
# 查看color数组的索引
color.index

Index(['red', 'blue', 'green', 'yellow'], dtype='object')

#### Series.values

In [6]:
# 查看color数组的值
color.values

array([  10,   20,   50, 1000], dtype=int64)

## 2.2 DataFrame
DataFrame是一个类似于二维数组或表格(如excel)的对象，既有行索引，又有列索引

* 行索引，表明不同行，横向索引，叫index，0轴，axis=0
* 列索引，表名不同列，纵向索引，叫columns，1轴，axis=1

### 2.1.1 DataFrame的创建
pd.DataFrame(data=None, index=None, columns=None)
* index：行标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
* columns：列标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。

In [7]:
# 创建一个2x3的符合标准正态分布的DataFrame
pd.DataFrame(np.random.randn(2, 3))

Unnamed: 0,0,1,2
0,-0.927785,0.811139,1.448737
1,-1.785742,-2.384232,-0.180492


* **假设现在想要创建一个学生成绩表**

In [8]:
# 生成10名同学，5门课程的成绩数据
score = np.random.randint(40, 100, (10, 5))
score

array([[80, 92, 76, 77, 68],
       [48, 82, 95, 54, 94],
       [78, 86, 71, 53, 62],
       [42, 91, 72, 72, 44],
       [67, 84, 84, 87, 65],
       [82, 48, 56, 48, 89],
       [52, 53, 92, 52, 52],
       [61, 51, 42, 80, 51],
       [57, 65, 83, 62, 83],
       [51, 59, 74, 91, 44]])

* 但是这样的数据形式很难看到存储的是什么的样的数据，可读性比较差！


* 问题：如何让数据更有意义的显示？
我们使用DataFrame！

In [9]:
# 使用DataFrame来承接score数据
score_df = pd.DataFrame(score)
score_df

Unnamed: 0,0,1,2,3,4
0,80,92,76,77,68
1,48,82,95,54,94
2,78,86,71,53,62
3,42,91,72,72,44
4,67,84,84,87,65
5,82,48,56,48,89
6,52,53,92,52,52
7,61,51,42,80,51
8,57,65,83,62,83
9,51,59,74,91,44


* **给分数数据增加行列索引,显示效果更佳**

In [10]:
# 构造行索引，课程名称
subjects = ['语文', '数学', '英语', '物理', '化学']

# 构造列索引，学生名字
names = ['同学' + str(i) for i in range(score_df.shape[0])]

# 使用DataFrame，添加行列索引
score_data = pd.DataFrame(score, index=names, columns=subjects)
score_data

Unnamed: 0,语文,数学,英语,物理,化学
同学0,80,92,76,77,68
同学1,48,82,95,54,94
同学2,78,86,71,53,62
同学3,42,91,72,72,44
同学4,67,84,84,87,65
同学5,82,48,56,48,89
同学6,52,53,92,52,52
同学7,61,51,42,80,51
同学8,57,65,83,62,83
同学9,51,59,74,91,44


### 2.1.2 DataFrame的属性
* df.shape:数组的形状
* df.index：行索引列表
* df.columns：列索引列表
* df.values：数组中的值
* df.T：转置
* df.head(n)：显示前n行,默认是5
* df.tail(n): 显示最后n行，默认是5

In [11]:
# 显示数组的形状（10行5列）
score_data.shape

(10, 5)

In [12]:
# 显示数组的行索引列表
score_data.index

Index(['同学0', '同学1', '同学2', '同学3', '同学4', '同学5', '同学6', '同学7', '同学8', '同学9'], dtype='object')

In [13]:
# 显示数组的列索引列表
score_data.columns

Index(['语文', '数学', '英语', '物理', '化学'], dtype='object')

In [14]:
# 显示数组的值
score_data.values

array([[80, 92, 76, 77, 68],
       [48, 82, 95, 54, 94],
       [78, 86, 71, 53, 62],
       [42, 91, 72, 72, 44],
       [67, 84, 84, 87, 65],
       [82, 48, 56, 48, 89],
       [52, 53, 92, 52, 52],
       [61, 51, 42, 80, 51],
       [57, 65, 83, 62, 83],
       [51, 59, 74, 91, 44]])

In [15]:
# 显示数组的转置矩阵
score_data.T

Unnamed: 0,同学0,同学1,同学2,同学3,同学4,同学5,同学6,同学7,同学8,同学9
语文,80,48,78,42,67,82,52,61,57,51
数学,92,82,86,91,84,48,53,51,65,59
英语,76,95,71,72,84,56,92,42,83,74
物理,77,54,53,72,87,48,52,80,62,91
化学,68,94,62,44,65,89,52,51,83,44


In [16]:
# 查看前5行内容
score_data.head(5)

Unnamed: 0,语文,数学,英语,物理,化学
同学0,80,92,76,77,68
同学1,48,82,95,54,94
同学2,78,86,71,53,62
同学3,42,91,72,72,44
同学4,67,84,84,87,65


In [17]:
# 查看最后5行内容
score_data.tail(5)

Unnamed: 0,语文,数学,英语,物理,化学
同学5,82,48,56,48,89
同学6,52,53,92,52,52
同学7,61,51,42,80,51
同学8,57,65,83,62,83
同学9,51,59,74,91,44


### 2.1.3 DataFrame索引的设置

#### 2.1.3.1 修改行列索引值
必须整体全部修改，不能只修改某一个索引

In [18]:
# 现在想要把行索引改成 '同学_1'
names_new = ['同学_' + str(i) for i in range(score_df.shape[0])]
score_data.index = names_new
score_data

Unnamed: 0,语文,数学,英语,物理,化学
同学_0,80,92,76,77,68
同学_1,48,82,95,54,94
同学_2,78,86,71,53,62
同学_3,42,91,72,72,44
同学_4,67,84,84,87,65
同学_5,82,48,56,48,89
同学_6,52,53,92,52,52
同学_7,61,51,42,80,51
同学_8,57,65,83,62,83
同学_9,51,59,74,91,44


In [19]:
# 不能修改某一个值,以下修改方式是错误的
# score_data.index[0] = '学生_3'

#### 2.1.3.2 重设索引
df.reset_index(drop=False)
* 设置新的下标索引
* drop:默认为False，不删除原来索引，如果为True,删除原来的索引值

In [20]:
# 重置索引,drop=False
score_data.reset_index()

Unnamed: 0,index,语文,数学,英语,物理,化学
0,同学_0,80,92,76,77,68
1,同学_1,48,82,95,54,94
2,同学_2,78,86,71,53,62
3,同学_3,42,91,72,72,44
4,同学_4,67,84,84,87,65
5,同学_5,82,48,56,48,89
6,同学_6,52,53,92,52,52
7,同学_7,61,51,42,80,51
8,同学_8,57,65,83,62,83
9,同学_9,51,59,74,91,44


In [21]:
# 重置索引，drop=True
score_data.reset_index(drop=True)

Unnamed: 0,语文,数学,英语,物理,化学
0,80,92,76,77,68
1,48,82,95,54,94
2,78,86,71,53,62
3,42,91,72,72,44
4,67,84,84,87,65
5,82,48,56,48,89
6,52,53,92,52,52
7,61,51,42,80,51
8,57,65,83,62,83
9,51,59,74,91,44


#### 2.1.3.3 以某列值设置为新的索引
df.set_index(keys, drop=True)
* keys : 列索引名成或者列索引名称的列表
* drop : boolean, default True.当做新的索引，删除原来的列

In [22]:
# 我们创建一个新的数组
sale_df = pd.DataFrame({'month': [1, 4, 7, 10],
                        'year': [2012, 2014, 2013, 2014],
                        'sale': [55, 40, 84, 31]})
sale_df

Unnamed: 0,month,year,sale
0,1,2012,55
1,4,2014,40
2,7,2013,84
3,10,2014,31


In [23]:
# 现在我们想要以month这一列作为我们的行索引
sale_df.set_index('month')

Unnamed: 0_level_0,year,sale
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2012,55
4,2014,40
7,2013,84
10,2014,31


In [24]:
# 可以设置多个索引，比如以年和月份
df = sale_df.set_index(['year', 'month'])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,sale
year,month,Unnamed: 2_level_1
2012,1,55
2014,4,40
2013,7,84
2014,10,31


In [25]:
# 查看新的DataFrame的行索引，发现变成了MultiIndex
df.index

MultiIndex([(2012,  1),
            (2014,  4),
            (2013,  7),
            (2014, 10)],
           names=['year', 'month'])

这样DataFrame就变成了一个具有MultiIndex的DataFrame

## 2.3 MultiIndex
MultiIndex是多维的数据结构;

多级索引（也称层次化索引）是pandas的重要功能，可以在Series、DataFrame对象上拥有2个以及2个以上的索引。

### 2.3.1 创建一个MultiIndex的Series

In [26]:
# 创建一个MultiIndex
index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd', 'd', 'd'],
         [0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2]]

# 创建一个Series
ser_obj = pd.Series(np.random.randn(12), index=index)
ser_obj

a  0    0.190123
   1   -1.727600
   2    0.983029
b  0   -0.878320
   1    1.400968
   2    1.546570
c  0   -0.575529
   1    0.462422
   2   -0.726097
d  0   -0.284697
   1    0.080725
   2    0.263627
dtype: float64

### 2.3.2 MultiIndex索引的对象

In [27]:
# 显示multiIndex索引
ser_obj.index

MultiIndex([('a', 0),
            ('a', 1),
            ('a', 2),
            ('b', 0),
            ('b', 1),
            ('b', 2),
            ('c', 0),
            ('c', 1),
            ('c', 2),
            ('d', 0),
            ('d', 1),
            ('d', 2)],
           )

### 2.3.3 选取子集
* 根据索引获取数据。因为现在有两层索引，当通过外层索引获取数据的时候，可以直接利用外层索引的标签来获取。

* 当要通过内层索引获取数据的时候，在list中传入两个元素，前者是表示要选取的外层索引，后者表示要选取的内层索引。

注意：经常用于分组操作

#### 外层选取

In [28]:
# 外层选取,想要选取索引是c的对象
ser_obj['c']

0   -0.575529
1    0.462422
2   -0.726097
dtype: float64

#### 内层选取

In [29]:
# 内层选取，想要选取内层索引是1的对象
ser_obj[:, 1]

a   -1.727600
b    1.400968
c    0.462422
d    0.080725
dtype: float64

### 2.3.4 交换分层顺序
* df.swaplevel( )：交换内层与外层索引。

In [30]:
ser_obj.swaplevel()

0  a    0.190123
1  a   -1.727600
2  a    0.983029
0  b   -0.878320
1  b    1.400968
2  b    1.546570
0  c   -0.575529
1  c    0.462422
2  c   -0.726097
0  d   -0.284697
1  d    0.080725
2  d    0.263627
dtype: float64

* 加入我们现在想要交换分层顺序，并进行排序

In [31]:
ser_obj.swaplevel().sort_index()

0  a    0.190123
   b   -0.878320
   c   -0.575529
   d   -0.284697
1  a   -1.727600
   b    1.400968
   c    0.462422
   d    0.080725
2  a    0.983029
   b    1.546570
   c   -0.726097
   d    0.263627
dtype: float64