# 一： Pandas 核心数据结构

# 1 Series（序列）

一维数组，能够存储任何数据类型（整数、浮点数、字符串等）。每个元素都有一个索引。

## 1.1 序列的创建（pd.Series方法）

### 1.1.1 利用列表对象 创建序列

#### 1.1.1.1 无索引序列（默认索引为0 1 2 ...）

In [1]:
# 先导包
import pandas as pd

# 创建价格列表
price_list = [6000, 5000, 2300]

# 使用列表对象创建序列
Series1 = pd.Series(price_list)
print(Series1)

0    6000
1    5000
2    2300
dtype: int64


#### 1.1.1.2 添加索引

In [2]:
# 先导包
import pandas as pd

# 创建价格列表
price_list = [6000, 5000, 2300]

# 添加行索引
skins = ["蝴蝶刀", "玻璃杯", "苹果"]

# 使用列表对象创建序列
Series1 = pd.Series(price_list, index=skins)
print(Series1)

蝴蝶刀    6000
玻璃杯    5000
苹果     2300
dtype: int64


### 1.1.2 利用字典对象 创建序列

In [3]:
# 先导包
import pandas as pd

# 创建价格字典
dict = {"蝴蝶刀": 6000,
        "玻璃杯": 5000,
        "苹果": 2300}

Series2 = pd.Series(dict)
print(Series2)

蝴蝶刀    6000
玻璃杯    5000
苹果     2300
dtype: int64


### 1.1.3 利用标量 创建序列

In [4]:
# 先导包
import pandas as pd

# 通过标量创建序列
Series3 = pd.Series(1/5, index=["37", "515", "628"])
print(Series3)

37     0.2
515    0.2
628    0.2
dtype: float64


# 2 DataFrame（数据集、数据框、数据表格）

二维表格，类似于电子表格或数据库表，可以存储不同类型的数据。由行和列组成，每列可以是不同的数据类型。

## 2.1 数据集的创建（pd.DataFrame方法）

### a. 利用列表对象 创建数据集

#### a1. 单层列表数据（每个数据即为一行）

In [5]:
# 先导包
import pandas as pd

# 准备数据
data_list = ["短尾猫", "张三", "Tom"]

# 创建DataFrame（数据集）
df = pd.DataFrame(data_list)
df

Unnamed: 0,0
0,短尾猫
1,张三
2,Tom


#### a2. 多层列表数据（每个列表即为一行）

In [6]:
# 先导包
import pandas as pd

# 准备数据
data_lists = [["短尾猫", "张三", "Tom"], ["番茄", "red", "语文"]]

# 创建DataFrame（数据集）
df = pd.DataFrame(data_lists, index=["姓名、种类", "乱七八糟"])
df

Unnamed: 0,0,1,2
姓名、种类,短尾猫,张三,Tom
乱七八糟,番茄,red,语文


### b. 利用字典对象 创建数据集

In [7]:
# 先导包
import pandas as pd

# 准备数据
data_dict = {"姓名": ["张三", "短尾猫", "Tom"], "年龄": [24, 3, 18]}

# 创建DataFrame(数据集)
df = pd.DataFrame(data_dict)
df

Unnamed: 0,姓名,年龄
0,张三,24
1,短尾猫,3
2,Tom,18


### c. 列表内元素为字典

In [8]:
# 先导包
import pandas as pd

# 准备数据
data = [{"a": 1, "b": 2}, {"a": 2, "b": 4, "c": 6}]

# 创建DataFrame（数据集）
df = pd.DataFrame(data, index=["times1", "times2"])
df

Unnamed: 0,a,b,c
times1,1,2,
times2,2,4,6.0


### d. 利用数组对象 创建数据集

In [9]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))
print(f"随机创建的成绩数组内容为：\n{grades_ary}")

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
df

随机创建的成绩数组内容为：
[[94 91 84]
 [95 87 85]
 [81 85 80]
 [94 89 92]]


Unnamed: 0,语文,数学,英语
张三,94,91,84
Tom,95,87,85
鸢泉花,81,85,80
短尾猫,94,89,92


### e. 练习：创建月份简称数据集

In [10]:
# 先导包
import numpy as np
import pandas as pd

# 准备数据
month_index = ["一月", "二月", "三月", "四月", "五月", "六月", "七月", "八月", "九月", "十月", "十一月", "十二月"]
name_columns = ["英文", "简称"]
ary = np.array([["January", "Jan"], ["February", "Feb"], ["March", "Mar"], ["April", "Apr"], ["May", "May"], ["June", "Jun"], 
                ["July", "Jul"], ["August", "Aug"], ["September", "Sep"], ["October", "Oct"], ["November", "Nov"], ["December", "Dec"]])

# 创建数据集
date_English = pd.DataFrame(ary, index=month_index, columns=name_columns)
date_English.T  # 转置

Unnamed: 0,一月,二月,三月,四月,五月,六月,七月,八月,九月,十月,十一月,十二月
英文,January,February,March,April,May,June,July,August,September,October,November,December
简称,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec


### f. 使用字典 组合双序列 为 数据集

In [11]:
# 先导包
import pandas as pd

# 创建演示序列
Series1 = pd.Series([176, 23, 65], index=["身高", "年龄", "体重"])
Series2 = pd.Series([14, 3, 12, "英短"], index=["身高", "年龄", "体重", "品种"])

# 组合演示序列
data = {"Tom": Series1,
        "短尾猫": Series2}

# 创建演示数据集
df = pd.DataFrame(data)
df

Unnamed: 0,Tom,短尾猫
体重,65.0,12
品种,,英短
年龄,23.0,3
身高,176.0,14


# 二： 数据访问

## 2.1 序列的访问

对序列进行访问，可以通过 下标索引、索引标签名称进行，且可以进行序列切片操作。推荐使用标签名称进行访问

### 2.1.0 创建Series1，用于下述演示

In [12]:
# 先导包
import pandas as pd

# 创建价格列表
price_list = [6000, 5000, 2300]

# 添加行索引
skins = ["蝴蝶刀", "玻璃杯", "苹果"]

# 使用列表对象创建序列
Series1 = pd.Series(price_list, index=skins)
print(Series1)

蝴蝶刀    6000
玻璃杯    5000
苹果     2300
dtype: int64


### 2.1.1 使用下标索引 对序列进行访问

In [13]:
# 使用下标索引，只能获取对应标量
print(Series1[0], "\n")

# 使用索引序列，可以获得一个 子Series数据结构
print(Series1[1: ])  # 访问Series1的第二行到最后

6000 

玻璃杯    5000
苹果     2300
dtype: int64


### 2.1.2 使用标签名称 对序列进行访问

In [14]:
# 使用标签名称，可以获得对应标量
print(Series1["苹果"], "\n")
# 应当注意，使用单层只能获得一个标签名称对应的值

# 使用双层[[]]，可以获得一个新的Series（序列）
print(Series1[["蝴蝶刀"]], "\n")

# 使用双层[[]]，可以同时访问多个标签，获得多个标签对应的子序列
print(Series1[["玻璃杯", "蝴蝶刀"]])

2300 

蝴蝶刀    6000
dtype: int64 

玻璃杯    5000
蝴蝶刀    6000
dtype: int64


## 2.2 数据集的访问（列）

### 2.2.1 使用列的名称

In [15]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[176, 23, 65, "人类"], [14, 3, 12, "英短"]]).T
df = pd.DataFrame(data, index=["身高", "年龄", "体重", "品种"], columns=["Tom", "短尾猫"])
print(f"演示数据集的内容为：\n{df}", "\n")

# 访问Tom的信息
print(f"Tom的信息为：\n{df['Tom']}")

# 访问短尾猫的身高
print(f"\n短尾猫的身高为：{df['短尾猫']['身高']}cm")

演示数据集的内容为：
    Tom 短尾猫
身高  176  14
年龄   23   3
体重   65  12
品种   人类  英短 

Tom的信息为：
身高    176
年龄     23
体重     65
品种     人类
Name: Tom, dtype: object

短尾猫的身高为：14cm


## 2.3 数据集的访问（行）

### 2.3.1 使用 序列切片

In [16]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[176, 23, 65, "人类"], [14, 3, 12, "英短"], [6, 0.8, 1, "柑橘"]]).T
df = pd.DataFrame(data, index=["身高", "年龄", "体重", "品种"], columns=["Tom", "短尾猫", "橘子"])
print(f"演示数据集的内容为：\n{df}", "\n")

# 访问身高信息（行）
print(f"各组数据中的身高信息为：\n{df[0: 1]}")

演示数据集的内容为：
    Tom 短尾猫   橘子
身高  176  14    6
年龄   23   3  0.8
体重   65  12    1
品种   人类  英短   柑橘 

各组数据中的身高信息为：
    Tom 短尾猫 橘子
身高  176  14  6


## 2.4 数据集的访问（行、列）

### 2.4.1 loc方法

#### 2.4.1.1 只取一行

In [17]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出短尾猫的行
df_短尾猫 = df.loc["短尾猫"]
print(f"\n所取行的内容为：\n{df_短尾猫}\n返回值类型为：{type(df_短尾猫)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   82  92  89
Tom  91  83  80
鸢泉花  86  90  88
短尾猫  84  99  91

所取行的内容为：
语文    84
数学    99
英语    91
Name: 短尾猫, dtype: int32
返回值类型为：<class 'pandas.core.series.Series'>


#### 2.4.1.2 只取一列

应当注意，如果取的是列，在loc方法中的逗号前一定要有冒号，表示取全部的行，否则会报错

In [18]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建 DataFrame 数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用 DataFrame 的内容为：\n{df}")

# 取出所有同学的数学成绩
df_数学 = df.loc[: , "数学"]
print(f"\n所取行的内容为：\n{df_数学}\n返回值类型为：{type(df_数学)}")

演示所用 DataFrame 的内容为：
     语文  数学  英语
张三   85  80  94
Tom  86  82  82
鸢泉花  82  97  99
短尾猫  90  82  97

所取行的内容为：
张三     80
Tom    82
鸢泉花    97
短尾猫    82
Name: 数学, dtype: int32
返回值类型为：<class 'pandas.core.series.Series'>


#### 2.4.1.3 选择多行和多列

In [19]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 短尾猫和Tom 的 数学和英语成绩
df_prac = df.loc[["短尾猫", "Tom"], ["数学", "英语"]]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   97  87  87
Tom  82  93  91
鸢泉花  92  98  85
短尾猫  86  98  98

所取行的内容为：
     数学  英语
短尾猫  98  98
Tom  93  91
返回值类型为：<class 'pandas.core.frame.DataFrame'>


#### 2.4.1.4 使用切片

##### a. 如果都切片，就不需要列表嵌套

In [20]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 从Tom到短尾猫  数学到英语 的数据集
df_prac = df.loc["Tom": "短尾猫", "数学": "英语"]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   89  98  82
Tom  99  84  95
鸢泉花  87  85  97
短尾猫  95  95  85

所取行的内容为：
     数学  英语
Tom  84  95
鸢泉花  85  97
短尾猫  95  85
返回值类型为：<class 'pandas.core.frame.DataFrame'>


##### b. 只进行 行切片，则列切片需要进行列表嵌套

In [21]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 从Tom到短尾猫 的 数学和英语 的数据集
df_prac = df.loc["Tom": "短尾猫", ["数学", "英语"]]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   92  92  90
Tom  91  95  89
鸢泉花  98  86  82
短尾猫  88  82  91

所取行的内容为：
     数学  英语
Tom  95  89
鸢泉花  86  82
短尾猫  82  91
返回值类型为：<class 'pandas.core.frame.DataFrame'>


##### c. 只进行 列切片，则行切片需要进行列表嵌套

In [22]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 Tom和短尾猫  从数学到英语 的数据集
df_prac = df.loc[["Tom", "短尾猫"], "数学": "英语"]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   86  97  90
Tom  89  91  97
鸢泉花  93  91  85
短尾猫  98  85  92

所取行的内容为：
     数学  英语
Tom  91  97
短尾猫  85  92
返回值类型为：<class 'pandas.core.frame.DataFrame'>


#### 2.4.1.5 使用布尔索引

##### a. 演示：使用布尔索引

In [23]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}\n")

# 使用布尔索引，演示 一、四行 的内容
bool_index = [True, False, False, True]
df_prac = df.loc[bool_index]
print(f"只展示一、四行的内容，结果为：\n{df_prac}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   81  93  81
Tom  83  83  89
鸢泉花  85  94  88
短尾猫  88  98  86

只展示一、四行的内容，结果为：
     语文  数学  英语
张三   81  93  81
短尾猫  88  98  86


##### b. 练习：得到短尾猫大于85的科目及成绩

In [24]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}\n")

# 1. 取出短尾猫的成绩
短尾猫 = df.loc["短尾猫"]  # 取出短尾猫的所有成绩
print(f"短尾猫的成绩：\n{短尾猫}\n")  # 为了演示

# 2. 创建布尔索引，判断短尾猫的成绩是否大于85
短尾猫大于85 = 短尾猫 > 85
print(f"短尾猫的成绩大于85的布尔索引：\n{短尾猫大于85}\n")

# 3. 使用布尔索引筛选出成绩大于85的科目
短尾猫大于85的科目 = df.loc["短尾猫", 短尾猫大于85]
print(f"短尾猫成绩大于85的科目：\n{短尾猫大于85的科目}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   98  84  98
Tom  85  93  91
鸢泉花  81  99  97
短尾猫  96  85  84

短尾猫的成绩：
语文    96
数学    85
英语    84
Name: 短尾猫, dtype: int32

短尾猫的成绩大于85的布尔索引：
语文     True
数学    False
英语    False
Name: 短尾猫, dtype: bool

短尾猫成绩大于85的科目：
语文    96
Name: 短尾猫, dtype: int32


### 2.4.2 iloc方法

#### 2.4.2.1 只取一行

In [25]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出短尾猫的行
df_短尾猫 = df.iloc[3]
print(f"\n所取行的内容为：\n{df_短尾猫}\n返回值类型为：{type(df_短尾猫)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   84  85  97
Tom  95  84  96
鸢泉花  84  82  96
短尾猫  83  93  90

所取行的内容为：
语文    83
数学    93
英语    90
Name: 短尾猫, dtype: int32
返回值类型为：<class 'pandas.core.series.Series'>


#### 2.4.2.2 只取一列

应当注意，如果取的是列，在iloc方法中的逗号前一定要有冒号，表示取全部的行，否则会报错

In [26]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出数学的列
df_短尾猫 = df.iloc[: , 1]
print(f"\n所取行的内容为：\n{df_短尾猫}\n返回值类型为：{type(df_短尾猫)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   81  89  90
Tom  92  97  81
鸢泉花  91  85  88
短尾猫  96  90  94

所取行的内容为：
张三     89
Tom    97
鸢泉花    85
短尾猫    90
Name: 数学, dtype: int32
返回值类型为：<class 'pandas.core.series.Series'>


#### 2.4.2.3 选择多行和多列

In [27]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 短尾猫和Tom 的 数学和英语成绩
df_prac = df.iloc[[3, 1], [1, 2]]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   90  85  98
Tom  80  81  90
鸢泉花  94  95  84
短尾猫  98  85  90

所取行的内容为：
     数学  英语
短尾猫  85  90
Tom  81  90
返回值类型为：<class 'pandas.core.frame.DataFrame'>


#### 2.4.2.4 使用切片

##### a. 如果都切片，就不需要列表嵌套

In [28]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 从Tom到短尾猫  数学到英语 的数据集
df_prac = df.iloc[1: 4, 1:]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   81  86  91
Tom  82  88  93
鸢泉花  92  94  89
短尾猫  97  82  82

所取行的内容为：
     数学  英语
Tom  88  93
鸢泉花  94  89
短尾猫  82  82
返回值类型为：<class 'pandas.core.frame.DataFrame'>


##### b. 只进行 行切片，则列切片需要进行列表嵌套

In [29]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 从Tom到短尾猫 的 数学和英语 的数据集
df_prac = df.iloc[1: , [1, 2]]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   94  93  86
Tom  95  89  98
鸢泉花  87  94  83
短尾猫  93  81  86

所取行的内容为：
     数学  英语
Tom  89  98
鸢泉花  94  83
短尾猫  81  86
返回值类型为：<class 'pandas.core.frame.DataFrame'>


##### c. 只进行 列切片，则行切片需要进行列表嵌套

In [30]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}")

# 取出 Tom和短尾猫  从数学到英语 的数据集
df_prac = df.iloc[[1, 3], 1: 3]
print(f"\n所取行的内容为：\n{df_prac}\n返回值类型为：{type(df_prac)}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   85  85  90
Tom  89  97  90
鸢泉花  99  93  99
短尾猫  98  96  94

所取行的内容为：
     数学  英语
Tom  97  90
短尾猫  96  94
返回值类型为：<class 'pandas.core.frame.DataFrame'>


#### 2.4.2.5 使用布尔索引

##### a. 演示：使用布尔索引（这里同loc方法）

In [31]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}\n")

# 使用布尔索引，演示 一、四行 的内容
bool_index = [True, False, False, True]
df_prac = df.iloc[bool_index]
print(f"只展示一、四行的内容，结果为：\n{df_prac}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   93  90  82
Tom  84  81  81
鸢泉花  90  84  93
短尾猫  93  86  86

只展示一、四行的内容，结果为：
     语文  数学  英语
张三   93  90  82
短尾猫  93  86  86


##### b. 练习：得到短尾猫大于85的科目及成绩（这里可以使用np.where方法）

In [32]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.random.randint(80, 100, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}\n")

# 1.创建布尔索引，选择数学成绩大于85的行
数学成绩大于85 = df["数学"] > 85
print(数学成绩大于85, "\n")

# 2.使用 iloc 方法选择符合条件的行（需要先转换布尔索引为整数索引）
符合条件的行索引 = np.where(数学成绩大于85)[0]  # 获取满足条件的行的索引
print(符合条件的行索引, "\n")

# 3.使用 iloc 选择这些行
df_数学高分 = df.iloc[符合条件的行索引]
print(f"数学成绩大于85的学生成绩为：\n{df_数学高分}")

演示所用DataFrame的内容为：
     语文  数学  英语
张三   90  84  86
Tom  83  99  84
鸢泉花  86  89  97
短尾猫  89  87  92

张三     False
Tom     True
鸢泉花     True
短尾猫     True
Name: 数学, dtype: bool 

[1 2 3] 

数学成绩大于85的学生成绩为：
     语文  数学  英语
Tom  83  99  84
鸢泉花  86  89  97
短尾猫  89  87  92


# 三 DataFrame 常用操作

# 1. DataFrame 行、列添加

## 1.1 使用 序列 进行添加

下例添加列时，将行索引中的 身高与年龄 进行了调换，但是最终结果会自动对齐

In [33]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[176, 23, 65, "人类"], [14, 3, 12, "英短"]]).T
df = pd.DataFrame(data, index=["身高", "年龄", "体重", "品种"], columns=["Tom", "短尾猫"])
print(f"演示数据集的内容为：\n{df}", "\n")

# 添加新的列：橘子
Series1 = pd.Series([0.8, 6, 1, "柑橘"], index=["年龄", "身高", "体重", "品种"])
df["橘子"] = Series1
print(f"添加“橘子”列后，演示数据集的内容为：\n{df}", "\n")

# 添加新的行：口感
Series2 = pd.Series(["无口感", "酸", "甜"], index=["Tom", "短尾猫", "橘子"])
df.loc["口感"] = Series2
print(f"添加“口感”行后，演示数据集的内容为：\n{df}", "\n")

演示数据集的内容为：
    Tom 短尾猫
身高  176  14
年龄   23   3
体重   65  12
品种   人类  英短 

添加“橘子”列后，演示数据集的内容为：
    Tom 短尾猫   橘子
身高  176  14    6
年龄   23   3  0.8
体重   65  12    1
品种   人类  英短   柑橘 

添加“口感”行后，演示数据集的内容为：
    Tom 短尾猫   橘子
身高  176  14    6
年龄   23   3  0.8
体重   65  12    1
品种   人类  英短   柑橘
口感  无口感   酸    甜 



## 1.2 使用 列表 进行添加

使用列表时候，只会按照列表中的顺序挨个填入，因而需要保证数据能与行索引相对应

In [34]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[176, 23, 65, "人类"], [14, 3, 12, "英短"]]).T
df = pd.DataFrame(data, index=["身高", "年龄", "体重", "品种"], columns=["Tom", "短尾猫"])
print(f"演示数据集的内容为：\n{df}", "\n")

# 添加新的列：橘子
list1 = [0.8, 6, 1, "柑橘"]
df["橘子"] = list1
print(f"添加“橘子”列后，演示数据集的内容为：\n{df}", "\n")

# 添加新的行：口感
list2 = ["无口感", "酸", "甜"]
df.loc["口感"] = list2
print(f"添加“口感”行后，演示数据集的内容为：\n{df}", "\n")

演示数据集的内容为：
    Tom 短尾猫
身高  176  14
年龄   23   3
体重   65  12
品种   人类  英短 

添加“橘子”列后，演示数据集的内容为：
    Tom 短尾猫   橘子
身高  176  14  0.8
年龄   23   3    6
体重   65  12    1
品种   人类  英短   柑橘 

添加“口感”行后，演示数据集的内容为：
    Tom 短尾猫   橘子
身高  176  14  0.8
年龄   23   3    6
体重   65  12    1
品种   人类  英短   柑橘
口感  无口感   酸    甜 



# 2 DataFrame 行、列删除

## 2.1 列删除

### 2.1.1 del方法

In [35]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[176, 23, 65, "人类"], [14, 3, 12, "英短"], [6, 0.8, 1, "柑橘"]]).T
df = pd.DataFrame(data, index=["身高", "年龄", "体重", "品种"], columns=["Tom", "短尾猫", "橘子"])
print(f"演示数据集的内容为：\n{df}", "\n")

# 删除列：Tom
del df["Tom"]
print(df)

演示数据集的内容为：
    Tom 短尾猫   橘子
身高  176  14    6
年龄   23   3  0.8
体重   65  12    1
品种   人类  英短   柑橘 

   短尾猫   橘子
身高  14    6
年龄   3  0.8
体重  12    1
品种  英短   柑橘


### 2.1.2 pop方法

In [36]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[176, 23, 65, "人类"], [14, 3, 12, "英短"], [6, 0.8, 1, "柑橘"]]).T
df = pd.DataFrame(data, index=["身高", "年龄", "体重", "品种"], columns=["Tom", "短尾猫", "橘子"])
print(f"演示数据集的内容为：\n{df}", "\n")

# 删除列：Tom
Tom = df.pop("Tom")
print(df, f"\n\n被删除的序列内容为：\n{Tom}")

演示数据集的内容为：
    Tom 短尾猫   橘子
身高  176  14    6
年龄   23   3  0.8
体重   65  12    1
品种   人类  英短   柑橘 

   短尾猫   橘子
身高  14    6
年龄   3  0.8
体重  12    1
品种  英短   柑橘 

被删除的序列内容为：
身高    176
年龄     23
体重     65
品种     人类
Name: Tom, dtype: object


## 2.2 行、列删除

In [37]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary1 = np.random.randint(80, 100, (4, 3))
grades_ary2 = np.random.randint(100, 120, (4, 3))

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary1, index=["张三", "Tom", "冰红茶", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame1的内容为：\n{df}\n")

# 使用drop语法
# 1.删除列：英语
df1 = df.drop(columns="英语")
print(f"删掉英语列后，结果为：\n{df1}\n")

# 2.再删除行：冰红茶
df2 = df1.drop(index="冰红茶")
print(f"删掉冰红茶行后，结果为：\n{df2}")

演示所用DataFrame1的内容为：
     语文  数学  英语
张三   94  86  87
Tom  98  86  94
冰红茶  93  89  83
短尾猫  92  93  97

删掉英语列后，结果为：
     语文  数学
张三   94  86
Tom  98  86
冰红茶  93  89
短尾猫  92  93

删掉冰红茶行后，结果为：
     语文  数学
张三   94  86
Tom  98  86
短尾猫  92  93


# 3 DataFrame 内容修改

## 3.1 先访问列，再访问行

In [38]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.arange(1, 13).reshape(4, 3)

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "冰红茶", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}\n")

# 将Tom的数学分数改为 37
df["数学"][1] = 37
print(f"修改后的DataFrame的内容为：\n{df}\n")

演示所用DataFrame的内容为：
     语文  数学  英语
张三    1   2   3
Tom   4   5   6
冰红茶   7   8   9
短尾猫  10  11  12

修改后的DataFrame的内容为：
     语文  数学  英语
张三    1   2   3
Tom   4  37   6
冰红茶   7   8   9
短尾猫  10  11  12



## 3.2 先访问行，再访问列

In [39]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary = np.arange(1, 13).reshape(4, 3)

# 创建DataFrame数据结构
df = pd.DataFrame(grades_ary, index=["张三", "Tom", "冰红茶", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame的内容为：\n{df}\n")

# 将Tom的数学分数改为 37
df.loc["Tom"][1] = 37
print(f"修改后的DataFrame的内容为：\n{df}\n")

演示所用DataFrame的内容为：
     语文  数学  英语
张三    1   2   3
Tom   4   5   6
冰红茶   7   8   9
短尾猫  10  11  12

修改后的DataFrame的内容为：
     语文  数学  英语
张三    1   2   3
Tom   4  37   6
冰红茶   7   8   9
短尾猫  10  11  12



# 4 DataFrame属性

In [40]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数组
data = np.random.randint(0, 20, size=(3, 4))
df = pd.DataFrame(data, index=["Tom", "短尾猫", "李四"], columns=["语文", "数学", "英语", "政治"])

# 展示属性
print(f"原数据集的内容为：\n{df}\n")
print(f"原数据集的转置为：\n{df.T}\n")
print(f"原数据集的标签内容为：\n{df.axes}\n")
print(f"原数据集的元素类型为：{df['语文'].dtype}")
print(f"原数据集的原始数据是否为空，结果为：{df.empty}")
print(f"原数据集的维数为：{df.ndim}")
print(f"原数据集的元素数量为：{df.size}")
print(f"原数据集的数组类型为：\n{df.values}")
print(f"原数据集的形状为：{df.shape}")
df1 = df.head(2)
df2 = df.tail(2)
print(df1, "\n", df2)

原数据集的内容为：
     语文  数学  英语  政治
Tom  13  13  16   2
短尾猫   1   5  14  15
李四   17   5  13  12

原数据集的转置为：
    Tom  短尾猫  李四
语文   13    1  17
数学   13    5   5
英语   16   14  13
政治    2   15  12

原数据集的标签内容为：
[Index(['Tom', '短尾猫', '李四'], dtype='object'), Index(['语文', '数学', '英语', '政治'], dtype='object')]

原数据集的元素类型为：int32
原数据集的原始数据是否为空，结果为：False
原数据集的维数为：2
原数据集的元素数量为：12
原数据集的数组类型为：
[[13 13 16  2]
 [ 1  5 14 15]
 [17  5 13 12]]
原数据集的形状为：(3, 4)
     语文  数学  英语  政治
Tom  13  13  16   2
短尾猫   1   5  14  15 
      语文  数学  英语  政治
短尾猫   1   5  14  15
李四   17   5  13  12


# 四 Pandas通用操作

# 1 拼接：concat方法

## 1.1 对行拼接

In [41]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary1 = np.random.randint(80, 100, (4, 3))
grades_ary2 = np.random.randint(100, 120, (4, 3))

# 创建DataFrame数据结构，应当注意两个演示数据集的数学与英文位置不同
df1 = pd.DataFrame(grades_ary1, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["语文", "数学", "英语"])
print(f"演示所用DataFrame1的内容为：\n{df1}\n")

df2 = pd.DataFrame(grades_ary2, index=["知更鸟", "虎鼎鹤", "时云兔", "茶鼠"], columns=["语文", "英语", "数学"])
print(f"演示所用DataFrame2的内容为：\n{df2}\n")

# 按行进行拼接
df3 = pd.concat([df1, df2], axis=0)
print(f"拼接后的DataFrame3的内容为：\n{df3}\n")

演示所用DataFrame1的内容为：
     语文  数学  英语
张三   95  89  80
Tom  93  95  80
鸢泉花  90  84  98
短尾猫  86  85  90

演示所用DataFrame2的内容为：
      语文   英语   数学
知更鸟  115  107  111
虎鼎鹤  114  109  110
时云兔  118  109  113
茶鼠   106  103  110

拼接后的DataFrame3的内容为：
      语文   数学   英语
张三    95   89   80
Tom   93   95   80
鸢泉花   90   84   98
短尾猫   86   85   90
知更鸟  115  111  107
虎鼎鹤  114  110  109
时云兔  118  113  109
茶鼠   106  110  103



## 1.2 对列拼接

In [42]:
# 先导包
import numpy as np
import pandas as pd

# 使用随机数创建分数数组（4个人×3个科目）
grades_ary1 = np.random.randint(80, 100, (4, 3))
grades_ary2 = np.random.randint(100, 120, (4, 1))

# 创建DataFrame数据结构
df1 = pd.DataFrame(grades_ary1, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["政治", "数学分析", "英语"])
print(f"演示所用DataFrame1的内容为：\n{df1}\n")

df2 = pd.DataFrame(grades_ary2, index=["张三", "Tom", "鸢泉花", "短尾猫"], columns=["高等代数"])
print(f"演示所用DataFrame2的内容为：\n{df2}\n")

# 按行进行拼接
df3 = pd.concat([df1, df2], axis=1)
print(f"拼接后的DataFrame3的内容为：\n{df3}\n")

演示所用DataFrame1的内容为：
     政治  数学分析  英语
张三   84    83  88
Tom  88    97  94
鸢泉花  90    87  95
短尾猫  92    96  86

演示所用DataFrame2的内容为：
     高等代数
张三    105
Tom   100
鸢泉花   118
短尾猫   113

拼接后的DataFrame3的内容为：
     政治  数学分析  英语  高等代数
张三   84    83  88   105
Tom  88    97  94   100
鸢泉花  90    87  95   118
短尾猫  92    96  86   113



# 2 描述性统计

## 2.1 指标语法

In [43]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(0, 10, size=(5, 3))
index_list = [f"评委{x}" for x in range(1, 6)]
columns_list = ["张三", "Tom", "短尾猫"]
df = pd.DataFrame(data, index=index_list, columns=columns_list)
print(f"各评委给学生的打分数据集为：\n{df}\n")

# 演示描述性统计数据
print(f"平均值（按列计算）为：\n{df.mean()}\n")
print(f"短尾猫的中位数为：{df['短尾猫'].median()}\n")
print(f"Tom的最高分为：{df['Tom'].max()}\n")
print(f"评委4打出的最低分为：{df.loc['评委4'].min()}")

各评委给学生的打分数据集为：
     张三  Tom  短尾猫
评委1   7    4    2
评委2   9    2    3
评委3   3    4    4
评委4   6    0    7
评委5   3    8    4

平均值（按列计算）为：
张三     5.6
Tom    3.6
短尾猫    4.0
dtype: float64

短尾猫的中位数为：4.0

Tom的最高分为：8

评委4打出的最低分为：0


## 2.2 describe方法

In [44]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(0, 10, size=(5, 3))
index_list = [f"评委{x}" for x in range(1, 6)]
columns_list = ["张三", "Tom", "短尾猫"]
df = pd.DataFrame(data, index=index_list, columns=columns_list)
print(f"各评委给学生的打分数据集为：\n{df}\n")

# 演示描述性统计数据
print(f"该数据集的各基本统计特征为：\n{df.describe()}")

各评委给学生的打分数据集为：
     张三  Tom  短尾猫
评委1   1    7    0
评委2   8    4    3
评委3   2    6    9
评委4   5    1    6
评委5   1    9    3

该数据集的各基本统计特征为：
            张三      Tom       短尾猫
count  5.00000  5.00000  5.000000
mean   3.40000  5.40000  4.200000
std    3.04959  3.04959  3.420526
min    1.00000  1.00000  0.000000
25%    1.00000  4.00000  3.000000
50%    2.00000  6.00000  3.000000
75%    5.00000  7.00000  6.000000
max    8.00000  9.00000  9.000000


# 3 通用排序方法

## 3.1 按照索引内容排序：sort_index方法

In [45]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(0, 10, size=(4, 3))
df = pd.DataFrame(data, index=[2, 3, 4, 1], columns=["张三", "短尾猫", "Tom"])

# 按行进行降序排序
df.sort_index(ascending=False)

Unnamed: 0,张三,短尾猫,Tom
4,5,7,1
3,0,4,4
2,1,6,0
1,7,6,1


In [46]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(0, 10, size=(3, 4))
df = pd.DataFrame(data, index=["张三", "短尾猫", "Tom"], columns=[2, 3, 4, 1])

# 按列进行升序排序
df.sort_index(axis=1)

Unnamed: 0,1,2,3,4
张三,4,9,5,0
短尾猫,5,3,2,5
Tom,0,6,7,5


## 3.2 按照元素内容排序：sort_values方法

In [47]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(0, 10, size=(4, 3))
df = pd.DataFrame(data, index=[2, 3, 4, 1], columns=["张三", "短尾猫", "Tom"])

# 按短尾猫列的数据进行升序排序
df.sort_values(by="短尾猫")

Unnamed: 0,张三,短尾猫,Tom
1,0,1,6
2,4,5,9
3,0,6,9
4,9,9,8


In [48]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(20, 37, size=(3, 4))
df = pd.DataFrame(data, index=["1号", "2号", "3号"], columns=["a", "b", "c", "d"])
print(f"演示数据集df的内容为：\n{df}\n")

# 按照a列内容进行降序排列
df.sort_values(by="a", ascending=False)

演示数据集df的内容为：
     a   b   c   d
1号  21  22  22  31
2号  31  26  25  25
3号  26  28  29  22



Unnamed: 0,a,b,c,d
2号,31,26,25,25
3号,26,28,29,22
1号,21,22,22,31


In [49]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[20, 30, 37, 44], [21, 34, 37, 24], [21, 35, 25, 51]])
df = pd.DataFrame(data, index=["1号", "2号", "3号"], columns=["a", "b", "c", "d"])
print(f"演示数据集df的内容为：\n{df}\n")

# 先按照a列进行升序排序，再按照b列进行升序排序
df.sort_values(by=["a", "b"], ascending=False)
# 最后呈现的结果就是用a的进行升序，然后a相同的元素之间进行b列大小的比较，并进行排序

演示数据集df的内容为：
     a   b   c   d
1号  20  30  37  44
2号  21  34  37  24
3号  21  35  25  51



Unnamed: 0,a,b,c,d
3号,21,35,25,51
2号,21,34,37,24
1号,20,30,37,44


# 4 分组操作

## 4.1 groupby方法

In [50]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[2014, 37, 1002], [2016, 24, 1025], [2014, 34, 994], [2015, 28, 1005], [2014, 17, 1062]])
df = pd.DataFrame(data, index=["张三", "Tom", "短尾猫", "徐坤", "Jumping"], columns=["获奖年份", "年龄", "获奖时得分"])
print(f"所创建的演示数据集内容为：\n{df}")

# 对演示数据集进行分组处理
df_grouped = df.groupby("获奖年份")

# 展示分组结果
df_grouped.groups

所创建的演示数据集内容为：
         获奖年份  年龄  获奖时得分
张三       2014  37   1002
Tom      2016  24   1025
短尾猫      2014  34    994
徐坤       2015  28   1005
Jumping  2014  17   1062


{2014: ['张三', '短尾猫', 'Jumping'], 2015: ['徐坤'], 2016: ['Tom']}

## 4.2 迭代遍历分组

可以使用for循环进行迭代

In [51]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[2014, 37, 1002], [2016, 24, 1025], [2014, 34, 994], [2015, 28, 1005], [2014, 17, 1062]])
df = pd.DataFrame(data, index=["张三", "Tom", "短尾猫", "徐坤", "姜萍"], columns=["获奖年份", "年龄", "获奖时得分"])
print(f"所创建的演示数据集内容为：\n{df}\n")

# 对演示数据集进行分组处理
df_grouped = df.groupby("获奖年份")

# 展示分组结果
print(f"分组后的结果为：\n{df_grouped.groups}\n")

# 遍历每一个分组
for year, group in df_grouped:
    print(year)
    print(group, "\n")

所创建的演示数据集内容为：
     获奖年份  年龄  获奖时得分
张三   2014  37   1002
Tom  2016  24   1025
短尾猫  2014  34    994
徐坤   2015  28   1005
姜萍   2014  17   1062

分组后的结果为：
{2014: ['张三', '短尾猫', '姜萍'], 2015: ['徐坤'], 2016: ['Tom']}

2014
     获奖年份  年龄  获奖时得分
张三   2014  37   1002
短尾猫  2014  34    994
姜萍   2014  17   1062 

2015
    获奖年份  年龄  获奖时得分
徐坤  2015  28   1005 

2016
     获奖年份  年龄  获奖时得分
Tom  2016  24   1025 



## 4.3 分组后，获得一个分组细节

语法：已分组变量名称.get_group(元素数据名称)

In [52]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[2014, 37, 1002], [2016, 24, 1025], [2014, 34, 994], [2015, 28, 1005], [2014, 17, 1062]])
df = pd.DataFrame(data, index=["张三", "Tom", "短尾猫", "徐坤", "鸽子"], columns=["获奖年份", "年龄", "获奖时得分"])
print(f"所创建的演示数据集内容为：\n{df}\n")

# 对演示数据集进行分组处理
df_grouped = df.groupby("获奖年份")

# 展示分组结果
print(f"分组后的结果为：\n{df_grouped.groups}\n")

# 获得一个分组细节
df_grouped.get_group(2014)

所创建的演示数据集内容为：
     获奖年份  年龄  获奖时得分
张三   2014  37   1002
Tom  2016  24   1025
短尾猫  2014  34    994
徐坤   2015  28   1005
鸽子   2014  17   1062

分组后的结果为：
{2014: ['张三', '短尾猫', '鸽子'], 2015: ['徐坤'], 2016: ['Tom']}



Unnamed: 0,获奖年份,年龄,获奖时得分
张三,2014,37,1002
短尾猫,2014,34,994
鸽子,2014,17,1062


## 4.4 分组后，进行分组聚合 pd.merge方法

### 4.4.1 基本的merge使用

In [53]:
# 先导包
import pandas as pd

# 创建示例 DataFrame，并进行展示
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['B', 'C', 'D'],
    'value2': [4, 5, 6]
})
print(f"创建的演示数据集df1内容为：\n{df1}\n演示数据集df2内容为：\n{df2}")

# 使用 inner 合并
merged_inner = pd.merge(df1, df2, how='inner', on='key')
print("内合并后的内容为:\n", merged_inner)

创建的演示数据集df1内容为：
  key  value1
0   A       1
1   B       2
2   C       3
演示数据集df2内容为：
  key  value2
0   B       4
1   C       5
2   D       6
内合并后的内容为:
   key  value1  value2
0   B       2       4
1   C       3       5


### 4.4.2 使用外连接

In [54]:
# 先导包
import pandas as pd

# 创建示例 DataFrame，并进行展示
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['B', 'C', 'D'],
    'value2': [4, 5, 6]
})
print(f"创建的演示数据集df1内容为：\n{df1}\n演示数据集df2内容为：\n{df2}")

# 使用 outer 合并
merged_outer = pd.merge(df1, df2, how='outer', on='key')
print("外合并后的内容为:\n", merged_outer)

创建的演示数据集df1内容为：
  key  value1
0   A       1
1   B       2
2   C       3
演示数据集df2内容为：
  key  value2
0   B       4
1   C       5
2   D       6
外合并后的内容为:
   key  value1  value2
0   A     1.0     NaN
1   B     2.0     4.0
2   C     3.0     5.0
3   D     NaN     6.0


### 4.4.3 使用左连接和右连接

In [55]:
# 先导包
import pandas as pd

# 创建示例 DataFrame，并进行展示
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['B', 'C', 'D'],
    'value2': [4, 5, 6]
})
print(f"创建的演示数据集df1内容为：\n{df1}\n演示数据集df2内容为：\n{df2}")

# 左连接
merged_left = pd.merge(df1, df2, how='left', on='key')
print("左连接后的内容为:\n", merged_left)

# 右连接
merged_right = pd.merge(df1, df2, how='right', on='key')
print("右连接后的内容为:\n", merged_right)

创建的演示数据集df1内容为：
  key  value1
0   A       1
1   B       2
2   C       3
演示数据集df2内容为：
  key  value2
0   B       4
1   C       5
2   D       6
左连接后的内容为:
   key  value1  value2
0   A       1     NaN
1   B       2     4.0
2   C       3     5.0
右连接后的内容为:
   key  value1  value2
0   B     2.0       4
1   C     3.0       5
2   D     NaN       6


### 4.4.4 使用不同的列进行合并

In [56]:
# 创建不同列的 DataFrame
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'value': ['A', 'B', 'C']
})

df2 = pd.DataFrame({
    'id': [2, 3, 4],
    'value': ['D', 'E', 'F']
})
print(f"创建的演示数据集df1内容为：\n{df1}\n演示数据集df2内容为：\n{df2}")

# 使用 id 列进行合并
merged_diff = pd.merge(df1, df2, how='inner', on='id')
print("使用不同的列进行合并后所得内容为:\n", merged_diff)

创建的演示数据集df1内容为：
   id value
0   1     A
1   2     B
2   3     C
演示数据集df2内容为：
   id value
0   2     D
1   3     E
2   4     F
使用不同的列进行合并后所得内容为:
    id value_x value_y
0   2       B       D
1   3       C       E


### 4.4.5 使用索引进行合并

In [57]:
# 创建带有索引的 DataFrame
df1 = pd.DataFrame({
    'value1': [1, 2, 3]},
    index=['A', 'B', 'C'])

df2 = pd.DataFrame({
    'value2': [4, 5, 6]},
    index=['B', 'C', 'D'])
print(f"创建的演示数据集df1内容为：\n{df1}\n演示数据集df2内容为：\n{df2}")

# 使用索引进行合并
merged_index = pd.merge(df1, df2, left_index=True, right_index=True, how='inner')
print("使用索引进行合并后的内容为:\n", merged_index)

创建的演示数据集df1内容为：
   value1
A       1
B       2
C       3
演示数据集df2内容为：
   value2
B       4
C       5
D       6
使用索引进行合并后的内容为:
    value1  value2
B       2       4
C       3       5


# 5 算术运算

## 5.1 直接运算

In [58]:
# 先导包，并准备数据
import numpy as np
import pandas as pd
data = np.array([[37, 628, 515], [32, 623, 514], [38, 648, 575]])

# 创建演示数据集
df1 = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：\n{df1}\n")

# 演示pandas运算
series1 = df1["第一列"] + 5
print(f"通过数据集运算得到的新序列1内容为：\n{series1}\n")
series2 = df1["第一列"] * 5
print(f"通过数据集运算得到的新序列2内容为：\n{series2}\n")
series3 = df1.loc["第一行"] - 5
print(f"通过数据集运算得到的新序列3内容为：\n{series3}\n")
df2 = df1.loc["第一行": "第二行"] + 5
print(f"通过数据集运算得到的新数据集2内容为:\n{df2}")

演示数据集的内容为：
     第一列  第二列  第三列
第一行   37  628  515
第二行   32  623  514
第三行   38  648  575

通过数据集运算得到的新序列1内容为：
第一行    42
第二行    37
第三行    43
Name: 第一列, dtype: int32

通过数据集运算得到的新序列2内容为：
第一行    185
第二行    160
第三行    190
Name: 第一列, dtype: int32

通过数据集运算得到的新序列3内容为：
第一列     32
第二列    623
第三列    510
Name: 第一行, dtype: int32

通过数据集运算得到的新数据集2内容为:
     第一列  第二列  第三列
第一行   42  633  520
第二行   37  628  519


## 5.2 通过方法运算

In [59]:
# 先导包，并准备数据
import numpy as np
import pandas as pd
data = np.array([[37, 628, 515], [32, 623, 514], [38, 648, 575]])

# 创建演示数据集
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：\n{df}\n")

# 演示pandas运算
df1 = df.loc["第一行": "第二行", "第一列": "第二列"].add(5)
print(f"通过数据集运算得到的新数据集1内容为:\n{df1}\n")
df2 = df.sub(5)
print(f"通过数据集运算得到的新数据集2内容为:\n{df2}")

演示数据集的内容为：
     第一列  第二列  第三列
第一行   37  628  515
第二行   32  623  514
第三行   38  648  575

通过数据集运算得到的新数据集1内容为:
     第一列  第二列
第一行   42  633
第二行   37  628

通过数据集运算得到的新数据集2内容为:
     第一列  第二列  第三列
第一行   32  623  510
第二行   27  618  509
第三行   33  643  570


# 6 逻辑运算

## 6.1 使用判断语句

In [60]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(10, 37, size=(3, 4))
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列", "第四列"])
print(f"演示数据集的内容为：\n{df}\n")

# 演示逻辑语句
mask = df > 25
print(f"所得演示数据集的内容为：\n{mask}")

# 将大于25的保留，其余删除
df[mask]

演示数据集的内容为：
     第一列  第二列  第三列  第四列
第一行   31   17   10   21
第二行   32   27   13   17
第三行   12   14   31   24

所得演示数据集的内容为：
       第一列    第二列    第三列    第四列
第一行   True  False  False  False
第二行   True   True  False  False
第三行  False  False   True  False


Unnamed: 0,第一列,第二列,第三列,第四列
第一行,31.0,,,
第二行,32.0,27.0,,
第三行,,,31.0,


## 6.2 进行多个逻辑判断，使用 &（且） 、  |（或）

In [61]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.random.randint(10, 37, size=(3, 4))
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列", "第四列"])
print(f"演示数据集的内容为：\n{df}\n")

# 演示多个逻辑判断语句，大于25 且 小于32
mask1 = (df > 25) & (df < 32)
print(f"所得演示数据集的内容为：\n{mask1}\n")

# 演示多个逻辑判断语句，大于等于32 或 小于等于25
mask2 = (df >= 32) | (df <= 25)
print(f"所得演示数据集的内容为：\n{mask2}")

演示数据集的内容为：
     第一列  第二列  第三列  第四列
第一行   33   32   13   36
第二行   24   30   10   18
第三行   24   33   19   18

所得演示数据集的内容为：
       第一列    第二列    第三列    第四列
第一行  False  False  False  False
第二行  False   True  False  False
第三行  False  False  False  False

所得演示数据集的内容为：
      第一列    第二列   第三列   第四列
第一行  True   True  True  True
第二行  True  False  True  True
第三行  True   True  True  True


## 6.3 query方法

In [62]:
# 先导包
import numpy as np
import pandas as pd

# 创建示例 DataFrame
data = np.random.randint(0, 37, size=(3, 4))
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列", "第四列"])
print(f"演示数据集的内容为：\n{df}\n")

# 使用 query 方法筛选
result_query1 = df.query('第一列 > 20')
print(f"第一列数字中，大于20的留下，得到的数据集为：\n{result_query1}")

演示数据集的内容为：
     第一列  第二列  第三列  第四列
第一行   16   13   27    2
第二行    7   10   32    6
第三行   28   35   30    6

第一列数字中，大于20的留下，得到的数据集为：
     第一列  第二列  第三列  第四列
第三行   28   35   30    6


## 6.4 isin方法

In [63]:
# 先导包，并准备数据
import numpy as np
import pandas as pd
data = np.array([[37, 628, 515], [32, 623, 514], [38, 648, 575]])

# 创建演示数据集
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：\n{df}\n")

# 使用isin方法检查值
df.isin([623])

演示数据集的内容为：
     第一列  第二列  第三列
第一行   37  628  515
第二行   32  623  514
第三行   38  648  575



Unnamed: 0,第一列,第二列,第三列
第一行,False,False,False
第二行,False,True,False
第三行,False,False,False


# 7 缺失值处理

## 7.1 从Excel读取数据，并作为DataFrame保存（pd.read_excel方法）

## 7.2 pd.isnull方法

In [64]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[1, 2, None], [3, 4, 5], [None, 8, 9]])
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：{df}")

# 使用pd.isnull方法
pd.isnull(df)

演示数据集的内容为：      第一列 第二列   第三列
第一行     1   2  None
第二行     3   4     5
第三行  None   8     9


Unnamed: 0,第一列,第二列,第三列
第一行,False,False,True
第二行,False,False,False
第三行,True,False,False


## 7.3 pd.notnull方法

In [65]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[1, 2, None], [3, 4, 5], [np.nan, 8, 9]])
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：{df}")

# 使用pd.notnull方法
pd.notnull(df)

演示数据集的内容为：     第一列 第二列   第三列
第一行    1   2  None
第二行    3   4     5
第三行  NaN   8     9


Unnamed: 0,第一列,第二列,第三列
第一行,True,True,False
第二行,True,True,True
第三行,False,True,True


## 7.4 dropna方法

In [66]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[1, 2, None], [3, 4, 5], [np.nan, 8, 9]])
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：{df}")

# 使用dropna方法
df.dropna(axis=1, how="any")

演示数据集的内容为：     第一列 第二列   第三列
第一行    1   2  None
第二行    3   4     5
第三行  NaN   8     9


Unnamed: 0,第二列
第一行,2
第二行,4
第三行,8


## 7.5 fillna方法

In [67]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[1, 2, None], [3, 4, 5], [np.nan, 8, 9]])
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：{df}")

# 使用fillna方法
df.fillna(37)

演示数据集的内容为：     第一列 第二列   第三列
第一行    1   2  None
第二行    3   4     5
第三行  NaN   8     9


Unnamed: 0,第一列,第二列,第三列
第一行,1,2,37
第二行,3,4,5
第三行,37,8,9


## 7.6 replace方法

In [68]:
# 先导包
import numpy as np
import pandas as pd

# 创建演示数据集
data = np.array([[1, 2, None], [3, 4, 5], [np.nan, 8, 9]])
df = pd.DataFrame(data, index=["第一行", "第二行", "第三行"], columns=["第一列", "第二列", "第三列"])
print(f"演示数据集的内容为：{df}")

# 演示使用replace方法
df2 = df.replace(to_replace=np.nan, value=37)
df2

演示数据集的内容为：     第一列 第二列   第三列
第一行    1   2  None
第二行    3   4     5
第三行  NaN   8     9


Unnamed: 0,第一列,第二列,第三列
第一行,1,2,37
第二行,3,4,5
第三行,37,8,9


# 五 Pandas日期处理

# 1 Pandas识别的日期字符串格式

In [69]:
# 先导包
import pandas as pd

# 创建Pandas可识别的日期序列
dates = pd.Series(["2024", "2023-02", "2001-8-28", "2020-3-7", "2024/3/31", "2031/05/01 01:37:06", "01 dec 1997", "1 Oct 1949"])

# 展示Pandas所识别的日期内容
print(dates)

# 注意：这里的dates还只是一个普通的序列，需要进行1.4.2的方法才能转化为datetime对象。

0                   2024
1                2023-02
2              2001-8-28
3               2020-3-7
4              2024/3/31
5    2031/05/01 01:37:06
6            01 dec 1997
7             1 Oct 1949
dtype: object


# 2 处理日期时间数据：pd.to_datetime方法

In [70]:
# 先导包
import pandas as pd

# 创建Pandas可识别的日期序列
dates = pd.Series(["2001-10-14", "2020-3-7", "2024/3/31", "2024-5-15"], index=["男友生日", "潇潇恋爱日", "男友复试日", "订婚日"])

# 转换日期数据类型
dates = pd.to_datetime(dates)
print(dates)

男友生日    2001-10-14
潇潇恋爱日   2020-03-07
男友复试日   2024-03-31
订婚日     2024-05-15
dtype: datetime64[ns]


# 3 datetime.dt方法

In [71]:
# 先导包
import pandas as pd

# 创建日期时间 Series
dates_Series = pd.Series(["2023-4-21 10:00", "2024-08-22 12:30", "2022-12-23 15:45"])
dates = pd.to_datetime(dates_Series)

# 提取年份
years = dates.dt.year
print("Years:\n", years)

# 提取月份
months = dates.dt.month
print("\nMonths:\n", months)

# 提取星期几
weekdays = dates.dt.dayofweek
print("\nWeekdays:\n", weekdays)

Years:
 0    2023
1    2024
2    2022
dtype: int64

Months:
 0     4
1     8
2    12
dtype: int64

Weekdays:
 0    4
1    3
2    4
dtype: int64


# 4 日期计算（返回值为timedelta）

In [72]:
# 先导包
import pandas as pd

# 创建Pandas可识别的日期序列
dates = pd.Series(["2001-10-14", "2020-3-7", "2024/3/31", "2024-5-15"], index=["男友生日", "潇潇恋爱日", "男友复试日", "订婚日"])

# 转换日期数据类型
dates = pd.to_datetime(dates)

# 计算上述datetime对象与2000-10-15的时间间隔
timedelta = dates - pd.to_datetime("2000-10-15")
print(timedelta)

男友生日     364 days
潇潇恋爱日   7083 days
男友复试日   8568 days
订婚日     8613 days
dtype: timedelta64[ns]


## 使用五-3方法，只显示日

In [73]:
# 先导包
import pandas as pd

# 创建Pandas可识别的日期序列
dates = pd.Series(["2001-10-14", "2020-3-7", "2024/3/31", "2024-5-15"], index=["男友生日", "潇潇恋爱日", "男友复试日", "订婚日"])

# 转换日期数据类型
dates = pd.to_datetime(dates)

# 计算上述datetime对象与2000-10-15的时间间隔
timedelta = dates - pd.to_datetime("2000-10-15")
print(timedelta.dt.days)

男友生日      364
潇潇恋爱日    7083
男友复试日    8568
订婚日      8613
dtype: int64


# 5 pd.date_range方法（返回值为DatetimeIndex）

## 5.1 使用start、end、periods参数

In [74]:
# 先导包
import pandas as pd

# 创建一个日期范围
date_range = pd.date_range(start='2023-01-01', end='2023-01-10', periods=3)
print(date_range)

DatetimeIndex(['2023-01-01 00:00:00', '2023-01-05 12:00:00',
               '2023-01-10 00:00:00'],
              dtype='datetime64[ns]', freq=None)


## 5.2 使用start、end、freq参数

In [75]:
# 先导包
import pandas as pd

# 创建一个日期范围
date_range = pd.date_range(start='2023-01-01', end='2023-01-10', freq="D")
print(date_range)

DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06', '2023-01-07', '2023-01-08',
               '2023-01-09', '2023-01-10'],
              dtype='datetime64[ns]', freq='D')
