# Pandas中Series的基础操作

In [1]:
import pandas as pd

## 一、Series——pandas中的数组

### 1. Series及其属性

#### （1）创建Series

In [2]:
s1 = pd.Series([5,17,3,26,31])
s1

0     5
1    17
2     3
3    26
4    31
dtype: int64

注：Series中的元素有索引，索引的序号从0开始  
dtype表示元素的种类

#### （2）获取Series中的元素值

In [3]:
s1.values

array([ 5, 17,  3, 26, 31])

#### （3）获取Series中的索引值

In [4]:
s1.index

RangeIndex(start=0, stop=5, step=1)

注：从0开始，终止值为5（不包括5），步长为1

### 2. Series的索引取值与切片

In [5]:
s1[2]

3

In [6]:
s1[1:3]

1    17
2     3
dtype: int64

### 3. 构建Series标签索引

In [7]:
s2 = pd.Series([5,17,3,26,31],["a","b","c","d","e"])
s2

a     5
b    17
c     3
d    26
e    31
dtype: int64

注：标签索引&位置索引：a,b,c,d,e & 0,1,2,3,4  
标签必须是字符，用“”包起来

In [71]:
s2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

#### （1）两种索引取值

In [8]:
s2[2]

  s2[2]


3

In [9]:
s2["c"]

3

#### （2）两种索引切片

In [10]:
s2[1:3]

b    17
c     3
dtype: int64

In [11]:
s2["b":"c"]

b    17
c     3
dtype: int64

注：标签索引与位置索引不同，其切片包括终止值元素

#### （3）用索引获得任意元素

In [12]:
s2[["a","d","e"]]

a     5
d    26
e    31
dtype: int64

In [13]:
s2[[0,3,4]]

  s2[[0,3,4]]


a     5
d    26
e    31
dtype: int64

#### （4）区别两种索引方式：loc和iloc

标签索引也可以设置整数作为标签，但是取值和切片时所采用的索引值不同；  
取值时采用标签进行索引；
切片时采用位置进行索引。

In [14]:
s3 = pd.Series([5,17,3,26,31],[1,3,5,7,9])
s3

1     5
3    17
5     3
7    26
9    31
dtype: int64

In [15]:
s3[3]

17

In [16]:
s3[1:3]

3    17
5     3
dtype: int64

##### loc——用标签索引

In [17]:
s3.loc[3]

17

In [18]:
s3.loc[1:3]

1     5
3    17
dtype: int64

##### iloc——用位置索引

In [19]:
s3.iloc[3]

26

In [20]:
s3.iloc[1:3]

3    17
5     3
dtype: int64

### 4.运用字典创建Series

In [21]:
s4 = pd.Series({"青菜":4.1,"白萝卜":2.2,"西红柿":5.3,"土豆":3.7,"黄瓜":6.8})
s4

青菜     4.1
白萝卜    2.2
西红柿    5.3
土豆     3.7
黄瓜     6.8
dtype: float64

#### （1）查看标签是否存在

In [22]:
"青菜" in s4

True

#### （2）修改Series中的值

In [23]:
s4.loc["青菜"] = 4.5

In [24]:
s4.iloc[0] = 4.5

In [25]:
s4.iloc[0]

4.5

### 5.根据条件筛选Series元素

In [26]:
s4[s4>5]

西红柿    5.3
黄瓜     6.8
dtype: float64

In [27]:
s4[(s4>5)|(s4<3)]

白萝卜    2.2
西红柿    5.3
黄瓜     6.8
dtype: float64

## 二、Series相关操作

### 1.Series的运算

#### （1）加减乘除运算

In [28]:
s5 = pd.Series([92,84,72,83,65],["小明","小红","小华","小杰","小丽"])
s6 = pd.Series([88,81,67,93,79],["小明","小娟","小华","小丽","小彤"])

In [29]:
print(s5)
print(s6)

小明    92
小红    84
小华    72
小杰    83
小丽    65
dtype: int64
小明    88
小娟    81
小华    67
小丽    93
小彤    79
dtype: int64


In [30]:
ss5 = s5 + 10
ss5

小明    102
小红     94
小华     82
小杰     93
小丽     75
dtype: int64

In [31]:
sss5 = s5 * 10
sss5

小明    920
小红    840
小华    720
小杰    830
小丽    650
dtype: int64

In [32]:
s5 + s6

小丽    158.0
小华    139.0
小娟      NaN
小彤      NaN
小明    180.0
小杰      NaN
小红      NaN
dtype: float64

注：两个Series中没有对应标签的元素，相加后的结果为NaN 

##### 加法

In [33]:
s5.add(s6,fill_value=0)

小丽    158.0
小华    139.0
小娟     81.0
小彤     79.0
小明    180.0
小杰     83.0
小红     84.0
dtype: float64

注：运用add函数对两个Series进行相加，没有对应标签的元素会赋值为0（fill_value=0）

##### 减法

In [34]:
s5.sub(s6,fill_value=0)

小丽   -28.0
小华     5.0
小娟   -81.0
小彤   -79.0
小明     4.0
小杰    83.0
小红    84.0
dtype: float64

##### 乘法

In [35]:
s5.mul(s6,fill_value=0)

小丽    6045.0
小华    4824.0
小娟       0.0
小彤       0.0
小明    8096.0
小杰       0.0
小红       0.0
dtype: float64

##### 除法

In [36]:
s5.div(s6,fill_value=0)

小丽    0.698925
小华    1.074627
小娟    0.000000
小彤    0.000000
小明    1.045455
小杰         inf
小红         inf
dtype: float64

#### （2）统计运算

In [37]:
s5.max()

92

In [38]:
s5.min()

65

In [39]:
s6.sum()

408

In [40]:
s6.mean()

81.6

#### （3）描述性统计

In [41]:
s5.describe()

count     5.00000
mean     79.20000
std      10.66302
min      65.00000
25%      72.00000
50%      83.00000
75%      84.00000
max      92.00000
dtype: float64

In [42]:
s6.describe()

count     5.000000
mean     81.600000
std       9.889388
min      67.000000
25%      79.000000
50%      81.000000
75%      88.000000
max      93.000000
dtype: float64

### 2.对Series中元素分别操作

广播机制

In [75]:
s5 * 0.5

小明    46.0
小红    42.0
小华    36.0
小杰    41.5
小丽    32.5
dtype: float64

对Series中元素分别操作:apply函数

In [44]:
def get_grade_from_score(score):
    if score >=90:
        return "A"
    elif score >=80:
        return "B"
    elif score >=70:
        return "C"
    else:
        return "D"

In [45]:
grades5 = s5.apply(get_grade_from_score)
grades5

小明    A
小红    B
小华    C
小杰    B
小丽    D
dtype: object

In [46]:
grades6 = s6.apply(get_grade_from_score)
grades6

小明    B
小娟    B
小华    D
小丽    A
小彤    C
dtype: object

In [83]:
grade_passed_5 = s5.apply(lambda x: "合格" if x >= 75 else "不合格")
grade_passed_5

小明     合格
小红     合格
小华    不合格
小杰     合格
小丽    不合格
dtype: object

## 补充：定义函数及匿名函数

### 1.定义函数

定义函数的意义在于，之后在需要时可以随时调用该函数的内容

比如：一个计算圆的面积的函数

In [47]:
def area_of_circle(radius):
    circle_area = 3.14 * radius ** 2
    return circle_area

In [48]:
circle_area1 = area_of_circle(2)
circle_area1

12.56

### 2. 高阶函数

高阶函数就是把子函数作为参数，放进母函数中进行计算

In [49]:
def calculate_square(num):
    return num * num

In [50]:
calculate_square(5)

25

In [51]:
def calculate_cube(num):
    return num * num * num

In [52]:
def print_with_vertical_bar(num, result):
    print(f"""
    | 数字参数 | {num} |
    | 计算结果 | {result} |""")

In [53]:
print_with_vertical_bar(2, 10)


    | 数字参数 | 2 |
    | 计算结果 | 10 |


注意：母函数中的需要重新设置，在函数

In [54]:
def calculate_and_print(num, calculator, formatter):
    result = calculator(num)
    formatter(num, result)

In [55]:
calculate_and_print(3, calculate_square, print_with_vertical_bar)


    | 数字参数 | 3 |
    | 计算结果 | 9 |


### 3.匿名函数lambda

Lambda函数也被称为匿名(没有名称)函数，它直接接受参数的数量以及使用该参数执行的条件或操作，该参数以冒号分隔，并返回最终结果。为了在大型代码库上编写代码时执行一项小任务，或者在函数中执行一项小任务，便在正常过程中使用lambda函数。  
函数格式：lambda variable_list: expression（function/expersion）

#### （1）匿名函数的直接使用

In [56]:
a = lambda x: x ** 2
a(3)

9

In [57]:
b = lambda x: "Even" if x % 2 == 0 else "Odd"
b(9)

'Odd'

In [58]:
def calculate_some_num(x, y, calculate_way):
    result = calculate_way(x, y)
    return result

In [59]:
calculate_some_num(3, 7,lambda num1, num2: num1 * num2)

21

假设有一个整数列表，必须返回三个输出：  
一个列表中所有偶数的和；  
一个列表中所有奇数的和；  
一个所有能被三整除的数的和。

#### （2）将匿名函数放入函数中使用

In [60]:
list_number = [11,14,21,56,78,45,29,28]

In [61]:
x = lambda a: a%2 == 0
y = lambda a: a%2 != 0
z = lambda a: a%3 == 0

In [62]:
def return_sum(func, lst):
  result = 0
  for i in lst:
    if func(i):
      result = result + i
  return result

In [63]:
return_sum(x, list_number)

176

In [64]:
return_sum(y, list_number)

106

In [65]:
return_sum(z, list_number)

144

### 4.python内置迭代器

#### （1）map函数

map(function, iterable, ...)  
map()函数接受一个函数和一个可迭代对象作为参数，将函数应用于可迭代对象的每个元素，并返回一个包含结果的迭代器。

In [66]:
# 将列表中的每个元素乘方
arr = [2,4,6,8] 
arr = map(lambda x: x*x, arr)
print(list(arr))

[4, 16, 36, 64]


In [67]:
# 提取字典中学生的名字
students = [
            {"name": "John Doe",
             "father name": "Robert Doe",
             "Address": "123 Hall street"
             },
            {
              "name": "Rahul Garg",
              "father name": "Kamal Garg",
              "Address": "3-Upper-Street corner"
            },
            {
              "name": "Angela Steven",
             "father name": "Jabob steven",
             "Address": "Unknown"
            }
]
print(list(map(lambda student: student['name'], students)))

['John Doe', 'Rahul Garg', 'Angela Steven']


#### （2）filter函数

filter(function, iterable)  
filter()函数接受一个函数和一个可迭代对象作为参数，将函数应用于可迭代对象的每个元素，并返回一个包含满足条件的元素的迭代器。

In [68]:
# 过滤出列表中的偶数
numbers = [1, 2, 3, 4, 5]
result = filter(lambda x: x % 2 == 0, numbers)
print(list(result)) 

[2, 4]


#### （3）sorted函数

sorted(iterable, key=None, reverse=False)  
sorted()函数接受一个可迭代对象作为参数，返回一个新的排好序的列表。可选参数key用于指定排序关键字函数，reverse用于指定是否降序排序。

In [69]:
# 列表中元素按首字母排序
my_list = ['apple', 'date', 'cherry', 'banana']
sorted_list = sorted(my_list, key=lambda x: x[0])
print(sorted_list)

['apple', 'banana', 'cherry', 'date']


#### （4）更多迭代器类型

[相关网站](https://zhuanlan.zhihu.com/p/678475351)

[相关网站]:(https://zhuanlan.zhihu.com/p/678475351)