# Series
![](./picture/2-1.png)
表格数据中的每一列或者每一行的数据结构都是Series，它可以看成是一维的表格数据。  
它可以属于DataFrame的一部分也可以作为一个独立的数据结构存在。  
下面，我们创建了一个Series，索引是员工号，数据是员工的姓名。我们可以通过values、index、items等Series的属性来获取各部分的全部数据  

In [1]:
from pandas import Series
emp=['001','002','003','004','005','006']
name=['亚瑟', '后裔','小乔','哪吒' ,'虞姬','王昭君']
series = Series(data=name,index=emp)

# 获取数据的值
print(series.values)
# 获取索引的值
print(series.index.tolist())
# 获取每对索引和值
print(list(series.items()))

['亚瑟' '后裔' '小乔' '哪吒' '虞姬' '王昭君']
['001', '002', '003', '004', '005', '006']
[('001', '亚瑟'), ('002', '后裔'), ('003', '小乔'), ('004', '哪吒'), ('005', '虞姬'), ('006', '王昭君')]


values、index、items返回的对象分别是List、Index、Zip类型的数据,为了方便我们使用和观察数据，可以使用series.index.tolist()和list(series.items())方法转化成List类型。  
Series就像将索引值暴露在外面的List，其实它们除了外表相似以外，在获取数据方面也非常的相似。  
我们可以通过索引值来进行单个数据的访问，同样也支持切片选择多个数据。  

In [2]:
from pandas import Series
emp=['001','002','003','004','005','006']
name=['亚瑟', '后裔','小乔','哪吒' ,'虞姬','王昭君']
series = Series(data=name,index=emp)

# 使用索引值获取单个数据
print(series['001'])

# 使用索引值获取多个不连续的数据
print('索引下标',series[['002','004']])

# 使用切片获取连续的数据
print('索引切片',series['001':'004'])

亚瑟
索引下标 002    后裔
004    哪吒
dtype: object
索引切片 001    亚瑟
002    后裔
003    小乔
004    哪吒
dtype: object
亚瑟
位置下标 002    后裔
004    哪吒
dtype: object
位置切片 001    亚瑟
002    后裔
003    小乔
dtype: object
亚瑟
后裔
小乔
哪吒
虞姬
王昭君
001
002
003
004
005
006
('001', '亚瑟')
('002', '后裔')
('003', '小乔')
('004', '哪吒')
('005', '虞姬')
('006', '王昭君')


【神仙的自我修养】
#### 获取数据格式—对象名[]
#### 获取多个不连续数据时是双层括号— 对象名[[]]
#### 使用切片时使用的是:
忽然想到我们的索引值是自定义的，那原来的自带的0、1、2……的索引值去哪里了？  
第一想法肯定是被自定义的index覆盖了呀，错！！！它不仅存在我们还可以使用。  
我们自定的index值被叫做索引下标，没有设置index值时会有一个默认的值叫做位置下标。  
位置下标就像电影院中的座位号，索引下标就是座位上人的名字。   

In [4]:
from pandas import Series
emp=['001','002','003','004','005','006']
name=['亚瑟', '后裔','小乔','哪吒' ,'虞姬','王昭君']
series = Series(data=name,index=emp)
# 获取单个数据
print(series[0])
# 获取多个不连续的数据
print('位置下标',series[[1,3]])
# 使用切片获取连续的数据
print('位置切片',series[0:3])

亚瑟
位置下标 002    后裔
004    哪吒
dtype: object
位置切片 001    亚瑟
002    后裔
003    小乔
dtype: object


选择题  
趁热打铁，sel = Series(data = ['1','2','3','4'], index = list('abcd')),下面哪个获取操作是错的？  
sel[1]  
sel[['a':'c']]  
sel['a':'c']  
sel[[0,3]]  
选B。使用切片的时候是单括号例如C选项，或者双括号内的值应该用“，”分割例如D选项。  
和Python其它数据结构类似，我们可以很方便的利用循环来遍历Series。我们可以直接遍历Series的值：  
代码片段 
```
# 遍历并拿到data数据
for value in series:
    print(value)
```
或者通过keys()，遍历Series的索引：  
代码片段  
```
# 遍历并拿到index数据
for value in series.keys():
    print(value)
```
也可以通过items()，遍历Series的每对索引和数据  
代码片段  
```
# 遍历并拿到每对索引和数据
for value in series.items():
    print(value)
```

In [6]:
from pandas import Series
emp=['001','002','003','004','005','006']
name=['亚瑟', '后裔','小乔','哪吒' ,'虞姬','王昭君']
series = Series(data=name,index=emp)
# 遍历并拿到data数据
for value in series:
    print(value)
# 遍历并拿到index数据
for value in series.keys():
    print(value)
    # 遍历并拿到每对索引和数据
for value in series.items():
    print(value)

亚瑟
后裔
小乔
哪吒
虞姬
王昭君
001
002
003
004
005
006
('001', '亚瑟')
('002', '后裔')
('003', '小乔')
('004', '哪吒')
('005', '虞姬')
('006', '王昭君')


# DataFrame的创建
DataFrame里的数据是按照行和列来进行排列，现在我们一起来看下如何对DataFrame的数据按照行或者列进行选择、遍历以及修改。  
每当学校需要打扫卫生的时候，灭绝师太或者老狼都会跑到教室微笑的说："后两排拿着工具去打扫操场！"。  
如果所有学生信息都保存在一个DataFrame中，我们有没有方法可以选择某一行或者多行数据呢   
当然可以，但是在获取之前我们要清楚DataFrame中的数据情况，不然岂不是要闹大笑话—报错。  
首先数据的维度是一维还是二维的我们可以使用ndim查看，数据的行数和列数shape，以及行列的索引值index、columns。  

In [12]:
import pandas as pd

df_dict = {
    'name':['ZhangSan','LiSi','WangWu','ZhaoLiu'],
    'age':['18','20','19','22'],
    'weight':['50','55','60','80']
}
df = pd.DataFrame(data=df_dict,index=['001','002','003','004'])
print(df)
# 获取行数和列数
print(df.shape)

# 获取行索引
print(df.index.tolist())

# 获取列索引
print(df.columns.tolist())

# 获取数据的维度
print(df.ndim)

         name age weight
001  ZhangSan  18     50
002      LiSi  20     55
003    WangWu  19     60
004   ZhaoLiu  22     80
(4, 3)
['001', '002', '003', '004']
['name', 'age', 'weight']
2


需要注意的是，如果我们数据量是10G，像这种数据量比较大并且我们想看数据的具体情况的时候，这些属性就不够用了，如果直接打印df有比较耗时，所以我们可以只获取前几行或者后几行，了解数据的构成即可。  
这时候有两个法宝head()、tail()正好能帮我们解决这个问题。  
两个方法都有默认值，默认值是5，当然也可以自己设置，如果数据不够5个会将全部数据拿出来。


In [13]:
import pandas as pd

df_dict = {
    'name':['ZhangSan','LiSi','WangWu','ZhaoLiu'],
    'age':['18','20','19','22'],
    'weight':['50','55','60','80']
}
df = pd.DataFrame(data=df_dict,index=['001','002','003','004'])
print(df.head(2))
print(df.tail(2))

# df[]不支持直接输入标签索引获取行数据，例如：df['001']
# 这种方式可以获取一列数据，列如：df['name']
# 如果想获取多行里面的某几列可写成：df[行][列]，例如：df[1:3][['name','age']],将列索引值放到同一个列表中，再将列表放到第二个方括号中

# 通过位置索引切片获取一行
print(df[0:1])
# 通过位置索引切片获取多行
print(df[1:3])
# 获取多行里面的某几列
print(df[1:3][['name','age']])
# 获取DataFrame的列
print(df['name'])
# 如果获取多个列
print(df[['name','age']])

         name age weight
001  ZhangSan  18     50
002      LiSi  20     55
        name age weight
003   WangWu  19     60
004  ZhaoLiu  22     80
         name age weight
001  ZhangSan  18     50
       name age weight
002    LiSi  20     55
003  WangWu  19     60
       name age
002    LiSi  20
003  WangWu  19
001    ZhangSan
002        LiSi
003      WangWu
004     ZhaoLiu
Name: name, dtype: object
         name age
001  ZhangSan  18
002      LiSi  20
003    WangWu  19
004   ZhaoLiu  22


In [14]:
import pandas as pd

df_dict = {
    'name':['ZhangSan','LiSi','WangWu','ZhaoLiu'],
    'age':['18','20','19','22'],
    'weight':['50','55','60','80']
}
df = pd.DataFrame(data=df_dict,index=['001','002','003','004'])
# df[]不支持直接输入标签索引获取行数据，例如：df['001']
# 这种方式可以获取一列数据，列如：df['name']
# 如果想获取多行里面的某几列可写成：df[行][列]，例如：df[1:3][['name','age']],将列索引值放到同一个列表中，再将列表放到第二个方括号中

# 获取某一行某一列的数据
print(df.loc['001','name'])
# 某一行多列的数据
print(df.loc['001',['name','weight']])
# 一行所有列
print(df.loc['001',:])
# 选择间隔的多行多列
print(df.loc[['001','003'],['name','weight']])
# 选择连续的多行和间隔的多列
print(df.loc['001':'003','name':'weight'])


ZhangSan
name      ZhangSan
weight          50
Name: 001, dtype: object
name      ZhangSan
age             18
weight          50
Name: 001, dtype: object
         name weight
001  ZhangSan     50
003    WangWu     60
         name age weight
001  ZhangSan  18     50
002      LiSi  20     55
003    WangWu  19     60


【神仙的自我修养】

#### df[]不支持直接输入标签索引获取行数据，例如：df['001']
#### 这种方式可以获取一列数据，列如：df['name']
#### 如果想获取多行里面的某几列可写成：df[行][列]，例如：df[1:3][['name','age']],将列索引值放到同一个列表中，再将列表放到第二个方括号中
当然我们也可以使用另外两个比较好用的法宝进行获取数据：通过行标签索引筛选loc[]，通过行位置索引筛选iloc[]：。

In [16]:
import pandas as pd

df_dict = {
    'name':['ZhangSan','LiSi','WangWu','ZhaoLiu'],
    'age':['18','20','19','22'],
    'weight':['50','55','60','80']
}
df = pd.DataFrame(data=df_dict,index=['001','002','003','004'])
print(df)

# 获取某一行某一列的数据
print(df.loc['001','name'])
# 某一行多列的数据
print(df.loc['001',['name','weight']])
# 一行所有列
print(df.loc['001',:])
# 选择间隔的多行多列
print(df.loc[['001','003'],['name','weight']])
# 选择连续的多行和间隔的多列
print(df.loc['001':'003','name':'weight'])

         name age weight
001  ZhangSan  18     50
002      LiSi  20     55
003    WangWu  19     60
004   ZhaoLiu  22     80
ZhangSan
name      ZhangSan
weight          50
Name: 001, dtype: object
name      ZhangSan
age             18
weight          50
Name: 001, dtype: object
         name weight
001  ZhangSan     50
003    WangWu     60
         name age weight
001  ZhangSan  18     50
002      LiSi  20     55
003    WangWu  19     60


【神仙的自我修养】df.loc[] 通过标签索引获取行数据，它的语法结构是这样的：df.loc[[行],[列]]，方括号中用逗号分隔，左侧是行、右侧是列。千万注意：如果行或者列使用切片的时候，要把方括号去掉，列df.loc['001':'003','name':'weight']。  
df.iloc[] 通过位置索引获取行数据，他的操作和loc[]操作是一样的，只要将标签索引改成位置索引就好了。 
需要注意的是，loc和iloc的切片操作在是否包含切片终点的数据有差异。loc['001':'003']的结果中包含行索引003对应的行。iloc[0:2] 结果中不包含序号为2的数据，切片终点对应的数据不在筛选结果中。  

In [17]:
import pandas as pd

df_dict = {
    'name':['ZhangSan','LiSi','WangWu','ZhaoLiu'],
    'age':['18','20','19','22'],
    'weight':['50','55','60','80']
}
df = pd.DataFrame(data=df_dict,index=['001','002','003','004'])
# 取一行
print(df.iloc[1])
# 取连续多行
print(df.iloc[0:2])
# 取间断的多行
print(df.iloc[[0,2],:])
# 取某一列
print(df.iloc[:,1])
# 某一个值
print(df.iloc[1,0])

name      LiSi
age         20
weight      55
Name: 002, dtype: object
         name age weight
001  ZhangSan  18     50
002      LiSi  20     55
         name age weight
001  ZhangSan  18     50
003    WangWu  19     60
001    18
002    20
003    19
004    22
Name: age, dtype: object
LiSi


iterrows(): 按行遍历，将DataFrame的每一行转化为(index, Series)对。index为行索引值，Series为该行对应的数据。  
代码片段  
```
for index,row_data in df.iterrows():
    print(index,row_data)
```
iteritems():按列遍历，将DataFrame的每一列转化为(column, Series)对。column为列索引的值，Series为该列对应的数据。  
代码片段  
```
for col,col_data in df.iteritems():
    print(col)
```

In [18]:
import pandas as pd

df_dict = {
    'name':['ZhangSan','LiSi','WangWu','ZhaoLiu'],
    'age':['18','20','19','22'],
    'weight':['50','55','60','80']
}
df = pd.DataFrame(data=df_dict,index=['001','002','003','004'])
for index,row_data in df.iterrows():
    print(index,row_data)
# for col,col_data in df.iteritems():
#     print(col)

001 name      ZhangSan
age             18
weight          50
Name: 001, dtype: object
002 name      LiSi
age         20
weight      55
Name: 002, dtype: object
003 name      WangWu
age           19
weight        60
Name: 003, dtype: object
004 name      ZhaoLiu
age            22
weight         80
Name: 004, dtype: object


![](./picture/2-2.png)

### 题目要求
1. 根据公司的员工信息登记表数据，获取相关信息：
2. 用三种方法获取遍历所有员工的薪水信息； 2. 获取最高薪水值。

### 题目讲解
1. 获取工号为003~007的所有员工信息；  
2. 获取所有员工的年龄和工资信息；  
3. 查看一个你感兴趣员工的婚姻状况。  

### 书写代码

In [20]:
from pandas import Series,DataFrame

# 使用字典创建
index_list = ['001','002','003','004','005','006','007','008','009','010']
name_list = ['李白','王昭君','诸葛亮','狄仁杰','孙尚香','妲己','周瑜','张飞','王昭君','大乔']
age_list = [25,28,27,25,30,29,25,32,28,26]
salary_list = ['10k','12.5','20k','14k','12k','17k','18k','21k','22k','21.5k']
marital_list = ['NO','NO','YES','YES','NO','NO','NO','YES','NO','YES']
dic={
    '姓名': Series(data=name_list,index=index_list),
    '年龄': Series(data=age_list,index=index_list),
    '薪资': Series(data=salary_list,index=index_list),
    '婚姻状况': Series(data=marital_list,index=index_list)
    }
df=DataFrame(dic)

# 1. 获取工号为003~007的所有员工信息
result1 = df['003':'007']
print(result1)

# 2. 获取所有员工的年龄和工资信息
result2 = df.loc[:,['年龄','薪资']]
print(result2)

# 3. 查看一个你感兴趣员工的婚姻状况
result3 = df.loc['009',['姓名','年龄','婚姻状况']]
print(result3)

      姓名  年龄   薪资 婚姻状况
003  诸葛亮  27  20k  YES
004  狄仁杰  25  14k  YES
005  孙尚香  30  12k   NO
006   妲己  29  17k   NO
007   周瑜  25  18k   NO
     年龄     薪资
001  25    10k
002  28   12.5
003  27    20k
004  25    14k
005  30    12k
006  29    17k
007  25    18k
008  32    21k
009  28    22k
010  26  21.5k
姓名      王昭君
年龄       28
婚姻状况     NO
Name: 009, dtype: object


In [21]:
# 如何查看别人的薪水？
from pandas import Series,DataFrame

# 使用字典创建
index_list = ['001','002','003','004','005','006','007','008','009','010']
name_list = ['李白','王昭君','诸葛亮','狄仁杰','孙尚香','妲己','周瑜','张飞','王昭君','大乔']
age_list = [25,28,27,25,30,29,25,32,28,26]
salary_list = ['10k','12.5k','20k','14k','12k','17k','18k','21k','22k','21.5k']
marital_list = ['NO','NO','YES','YES','NO','NO','NO','YES','NO','YES']
dic={
    '姓名': Series(data=name_list,index=index_list),
    '年龄': Series(data=age_list,index=index_list),
    '薪资': Series(data=salary_list,index=index_list),
    '婚姻状况': Series(data=marital_list,index=index_list)
    }
df=DataFrame(dic)

# 方法一：遍历薪水列
for value in df['薪资']:
    print(value)

# 方法二：遍历薪水列
for index,row_data in df.iterrows():
    print(row_data['薪资'])

# 方法三：遍历薪水列   
for col,col_data in df.iteritems():
    if col == '薪资':
        print(col_data)

# 获取最大薪资
for col,col_data in df.iteritems():
    if col == '薪资':
        # 将薪资中的k去掉并转化成float类型
        list1 = [float(value[:len(value)-1]) for value in col_data]
        # 排序
        max_salary = sorted(list1,reverse=True)[0]
        print(max_salary)

10k
12.5k
20k
14k
12k
17k
18k
21k
22k
21.5k
10k
12.5k
20k
14k
12k
17k
18k
21k
22k
21.5k
001      10k
002    12.5k
003      20k
004      14k
005      12k
006      17k
007      18k
008      21k
009      22k
010    21.5k
Name: 薪资, dtype: object
22.0
