昨天，我们学习了NumPy中的array数组，和它可以直接进行计算的特性。这在数据分析中，是大部分计算功能的基石。

在入门课，我们学了字典，可以通过字典的key访问对应的value，但是value不能直接进行批量计算。

那么，有没有既能进行计算，同时又带有索引来允许我们快捷访问的数据类型呢？

今天，我们将开始pandas模块的学习。

pandas是一个基于NumPy的模块，它的功能在于数据的筛选清洗和处理。

接下来，将分别从以下几个方面来学习pandas模块的两大核心数据类型：Series和DataFrame
1. 了解Series，并构造一个Series
2. 了解DataFrame，并构造一个DataFrame
3. index属性和values属性

在使用pandas前，我们需要先安装pandas。

在终端中输入代码：`pip install pandas`即可。

如果在自己电脑上安装不上或安装缓慢，可在命令后添加如下配置进行加速：
`pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/`

在使用pandas模块最开始，由于pandas不是Python的内置模块，我们需要在代码的开头，将pandas模块导入。

为了让其方便调用，我们通常会将其简写成pd。

# Series

导入了pandas模块，我们就可以进行数据集的操作啦。

我们先学习Series这一数据类型，并尝试通过Series构造函数，创建一个这样的数据类型。

Series，中文叫做序列，pandas模块的一种数据类型。

是一个一维的、带索引（index）的数组对象。

目前可以先不关注代码的部分，只关注Series。       

Series，就像排行榜，可以通过有次序的名次，找到对应的玩家名字。

print出来的Series，它由3部分构成。

左侧是索引(index)，右侧是值(values)，下面是值(values)的数据类型。

一个索引对应一个值。索引和值之间，有空格隔开。

Series和字典，有一定的相似之处。

一个字典中，通过键（key），可以访问所对应的值（value）。

Series也是如此，一个Series的索引（index）在左边，值（values）在右边，可以通过左边的索引index访问到右边对应的值values。

和字典不同的是：

Series中的数据是有顺序的。

除了直接通过index访问外，还能通过0，1，2这样的位置进行访问。

Series的index是可以定义的。

如果没有定义index，index就会默认从0开始生成。

Series的值（values）可以是多种数据类型：字符串、整型、浮点型、布尔型。

一个Series在print输出时，值的数据类型会在底部，用dtype标示出来。

需要注意的是，一个Series里的所有值，数据类型都是一样的。

# Series构造函数

## pd.Series()

这几行代码，构造了一个Series。

* 第1行，导入pandas模块。
* 第3行和第4行，定义了两个列表。
* 第6行，使用pd.Series()构造函数，创建了一个Series，并赋值给了变量GDP。
* 第8行，将创建的Series输出。

In [1]:
import pandas as pd

data = [80855, 77388, 68024, 47251, 40471]
city = ['GD','JS','SD','ZJ','HN']

GDP = pd.Series(data,index = city)

print(GDP)

GD    80855
JS    77388
SD    68024
ZJ    47251
HN    40471
dtype: int64


pd.Series( )通过调用pandas模块里的Series()函数，可以构造一个Series。

## 第一个常用参数
pd.Series()中，通常会传入一个列表list，来指定数据。

默认情况下，如果不传入数据，会生成一个空的Series。

示例中，将data这个列表传入pd.Series()函数中，列表中的元素会成为Series中的值（values）。

# 第二个常用参数：index
在传入数据后，还可以通过index参数，来定义Series中的索引（index）。

只需要将另一个列表list赋值给index参数，再传入pd.Series()函数中即可。

示例中，我们将定义好的列表city，作为index参数的值传入。那么，city中的值，会成为Series的index。

需要注意的是，作为index的列表，和作为值的列表，元素个数需要一致，如果不一致将会报错。

如果不传入index这个参数，那么生成的Series的index就会默认从0开始生成。

## 赋值的变量
将pd.Series()函数创建的Series，赋值给了GDP这个变量。

将GDP输出可以看到，它是一个Series对象。

其中，值（values）是由列表data的值组成，索引（index）是由列表city的值组成，值（values）的数据类型是整型。

导入pandas模块后，我们定义了两个列表GDP和rank。

我们尝试用Series构造函数，传入列表GDP作为Series的值，传入列表rank作为Series的index，赋值给变量info，并将其输出。

In [2]:
# 导入pandas模块，简称pd
import pandas as pd

# 定义两个列表
GDP =[80855, 77388, 68024, 47251, 40471]
rank =[1, 2, 3, 4, 5]

# TODO 使用Series构造函数，传入参数：列表GDP作为值，列表rank作为index
# 构造出的Series赋值给info
info = pd.Series(GDP, index = rank)

# 输出info这个Series
print(info)

1    80855
2    77388
3    68024
4    47251
5    40471
dtype: int64


# DataFrame

Pandas的另一种数据类型：DataFrame，许多特性上和Series有相似之处。

接下来，我们将学习DataFrame这一数据类型和DataFrame构造函数～

DataFrame，中文叫数据框。

是pandas模块最常用的数据类型，是一个二维的矩阵数据表。

DataFrame，就像是一个表格，可以非常便捷地存放数据。

通过行和列，可以定位一个值。

它由3部分组成：

既有行索引（index），可以用来定位到具体的某一行。

也有列索引（columns），用来定位到具体的某一列。

通过index和columns，可以定位到一个值，能快速进行数据的筛选和定位。

那DataFrame和Series之间有什么关系呢？

在某种程度上，可以认为DataFrame是“具有相同index的Series的集合”。

因此，DataFrame的一列当中，值的数据类型必须相同。

但是列和列之间的数据类型可以不同。

同样的，和Series类似，DataFrame的行索引index是可以选择性定义的。

如果没有定义index，index就会默认从0开始生成。

而DataFrame的列索引columns，是必须进行定义的。

## DataFrame的轴

DataFrame是一个二维的数据结构。

因此，它有一个新的属性：轴（axis）。

轴(axis)，是用来描述超过一维的数组的一个属性。

二维数组拥有两个轴，三维数组拥有三个轴，以此类推。

对于DataFrame而言：        
第0轴是垂直方向，一列一列的进行操作；        
第1轴是水平方向，一行一行的进行操作。

举一个例子🌰：

如果要按行或者按列来对DataFrame内的数据进行求和，可以使用sum()函数。

那么在sum()函数中，就可以使用axis参数来指定求和的方向。

右侧展示了：

当axis=0时，是在垂直的方向上进行求和操作；
当axis=1时，是在水平的方向上进行求和操作。

## DataFrame的构造函数

这几行代码，构造了一个DataFrame。

第1行，导入pandas模块。       
第3行，定义了一个字典。        
第4行，定义了一个列表。         
第6行，使用DataFrame构造函数创建了一个DataFrame，并赋值给了变量df。          
第8行，将这个创建的DataFrame输出。

In [3]:
import pandas as pd 

data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}
city= ['GD','JS','SD','ZJ']

df= pd.DataFrame(data, index=city)

print(df)

    rank    GDP
GD     1  80855
JS     2  77388
SD     3  68024
ZJ     4  47251


## pd.DataFrame( )
通过调用的pandas模块里的DataFrame()函数，可以构造一个DataFrame。

## 第一个常用参数
pd.DataFrame()中，通常会传入一个字典dict，来指定数据。

字典中的keys，会成为DataFrame的列索引columns；
字典中的values是一个列表，列表中的值，会成为DataFrame的值values。

如果不传入数据，会默认生成一个空的DataFrame。

示例中，将data这个字典传入pd.DataFrame()函数中：
'rank'和'GDP'成为了列索引columns，它们对应的values成为了生成的DataFrame的值。

需要特别注意的是，在构造DataFrame时，传入的字典必须是右侧所示的结构:

字典的keys是对象；
字典的values是对应的列表，并且每个列表中的元素个数相同。

在构造过程中：

字典中的keys，就成为了DataFrame中的列索引columns。

字典中的values，就成为了DataFrame中的值values。

## 第二个常用参数：index
在传入数据后，还可以通过index参数，来指定DataFrame的行索引（index）。

只需要将一个列表list赋值给index参数，再传入pd.DataFrame()函数中即可。

如果不传入index这个参数，那么生成的DataFrame的index就会默认从0开始生成。

示例中，我们将定义好的列表city，作为index参数的值传入。那么，city中的值，会成为DataFrame的index。

## 赋值的变量
将pd.DataFrame()函数创建的DataFrame，赋值给了df这个变量。

将df输出可以看到，它是一个DataFrame对象。

其中，列索引（columns）和值（values）是由字典data的值组成，行索引（index）是由列表city的值组成。

我们来试一试，使用DataFrame构造函数，将定义的字典data和列表rank作为参数传入，生成一个DataFrame，并赋值给变量performance吧～

In [4]:
# 导入pandas模块，简称pd
import pandas as pd 

# 定义一个字典data
data = {'name': ['May','Tony','Kevin'], 'score':[689,659,635]}
# 定义一个列表rank
rank = [1,2,3]

# TODO 使用pd.DataFrame()函数，传入参数：字典data作为value和columns，列表rank作为index
# 构造出的DataFrame赋值给performance
performance = pd.DataFrame(data, index = rank)


# 输出performance这个DataFrame
print(performance)

    name  score
1    May    689
2   Tony    659
3  Kevin    635


Series 和 DataFrame这两种数据结构，具有丰富的函数和属性，用于操作其中的数据。

最常用的两个属性分别是：index属性和values属性。

# index属性

我们可以直接访问Series和DataFrame的`.index`属性，来获取它们的index。

访问Series对象的`.index`属性，可以获取这个Series的索引。

访问DataFrame对象的`.index`属性，可以获取这个DataFrame的行索引index。

示例中，我们通过访问DataFrame对象的.index属性，获取了df变量的行索引index，并使用print()直接将其输出。

根据输出可以看到，df的index就是列表city所存储的值。

In [5]:
# 定义一个字典和一个列表
data = {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}
city = ['GD','JS','SD','ZJ']

# 使用DataFrame构造函数，传入参数：字典data作为values和columns，列表city作为index
# 构造出的DataFrame赋值给df
df = pd.DataFrame(data, index=city)

# 用print输出此时df的index属性结果
print(df.index)

Index(['GD', 'JS', 'SD', 'ZJ'], dtype='object')


在使用.index属性获取到一个对象的index后，我们还可以通过其进行直接赋值，来改变一个对象的index。

示例中，我们先使用列表city构造了df，并将df输出进行查看。         
然后，将df的index改为了列表city_CN的值，并将此时的df输出进行查看：

In [6]:
# 导入pandas模块，简称pd
import pandas as pd

# 定义一个字典和一个列表
data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}
city= ['GD','JS','SD','ZJ']

# 使用DataFrame构造函数，传入参数：字典data作为values和columns，列表city作为index
# 构造出的DataFrame赋值给df
df= pd.DataFrame(data, index=city)

# 用print输出此时的df
print(df)

# 定义一个新的列表city_CN
city_CN = ['广东','江苏','山东','浙江']

# TODO 将新列表city_CN赋值给df的index
df.index = city_CN

# 用print输出此时的df
print(df)

    rank    GDP
GD     1  80855
JS     2  77388
SD     3  68024
ZJ     4  47251
    rank    GDP
广东     1  80855
江苏     2  77388
山东     3  68024
浙江     4  47251


# values属性

和index属性一样，我们可以直接访问Series和DataFrame的`.values`属性，来获取它们的值。

访问一个Series对象的`.values`属性，可以获取这个Series的值values。

访问一个DataFrame对象的`.values`属性，可以获取这个DataFrame的值values。

获取到的Series和DataFrame的values，其实是一个数组。

还记得我们上节课学的ndarray吗？没错，Series和DataFrame的values，就是一个ndarray。

因此，Series和DataFrame的values，可以像数组一样，直接进行批量计算。

我们会在之后的课程中应用到这个知识点～

# 百题斩题目

## 亚洲人口数变化
使用下列两个列表，构造一个Series：
year = [1952,1957,1962,1967,1972]        
count = [842,924,1026,1153,1307]

让列表year作为Series的index，列表count作为Series的values，来描绘从1952年到1972年，每隔5年，亚洲的总人口数。

最后，别忘记将结果输出哦～

In [7]:
# TODO 导入pandas模块，并简称为"pd"
import pandas as pd

# TODO 依次定义year和count这两个列表
year = [1952,1957,1962,1967,1972]
count = [842,924,1026,1153,1307]

# TODO 使用pd.Series()函数构造指定Series
# 将count作为values，year作为index
# 把结果赋值给变量pop
pop = pd.Series(count, index = year)

# TODO 使用print()输出变量pop
print(pop)

1952     842
1957     924
1962    1026
1967    1153
1972    1307
dtype: int64


## 各大洲的人均寿命和GDP
使用下面的字典和列表，构造一个DataFrame，来描绘2007年各大洲，人均寿命和平均GDP。

```
info = {'lifeExp':[54.8,73.6,70.7,77.6,80.7], 'gdpPercap':[3089,11003,12473,25054,29810]}

continent =['Africa','America','Asia','Europe','Oceania']
```

In [8]:
# TODO 导入pandas模块，并简称为"pd"
import pandas as pd

# TODO 依次定义字典info和列表continent
info = {'lifeExp': [54.8, 73.6, 70.7, 77.6, 80.7], 'gdpPercap':[3089,11003,12473,25054,29810]}
continent =['Africa','America','Asia','Europe','Oceania']

# TODO 使用pd.DataFrame()函数构造指定DataFrame
# 把字典info作为values和columns，列表continent作为index
# 将结果赋值给变量df
df = pd.DataFrame(info, index = continent)

# TODO 使用print()输出df
print(df)

         lifeExp  gdpPercap
Africa      54.8       3089
America     73.6      11003
Asia        70.7      12473
Europe      77.6      25054
Oceania     80.7      29810


## 费用预算
CC是某电商项目的负责人。

现在，她需要分析该项目第三季度和第四季度的费用预算。
项目预算表（数据单位：千元）如图所示：

根据表格中标记的数据，帮助CC把 第三季度和第四季度的费用预算 用DataFrame的数据格式表示出来。

在代码最后，依次输出对应的DataFrame，和DataFrame的index以及values～

In [9]:
# TODO 导入pandas模块
import pandas as pd

# TODO 定义一个表示各季度费用预算的字典
season = {'第三季度':[55, 170, 73, 52, 36], '第四季度': [52, 123, 62, 58, 44]}

# TODO 定义一个表示各项费用名称的列表
fee = ['平台费用', '推广费用', '管理费用', '物流损耗费用', '仓储费用']

# TODO 构造DataFrame
df = pd.DataFrame(season, index = fee)

# TODO 输出构造好的DataFrame
print(df)

# TODO 输出DataFrame的index
print(df.index)

# TODO 输出DataFrame的values
print(df.values)

        第三季度  第四季度
平台费用      55    52
推广费用     170   123
管理费用      73    62
物流损耗费用    52    58
仓储费用      36    44
Index(['平台费用', '推广费用', '管理费用', '物流损耗费用', '仓储费用'], dtype='object')
[[ 55  52]
 [170 123]
 [ 73  62]
 [ 52  58]
 [ 36  44]]
