## Pandas Series

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

**Series 特点：**
- **索引：** 每个 Series 都有一个索引，它可以是整数、字符串、日期等类型。如果没有显式指定索引，Pandas 会自动创建一个默认的整数索引。从0开始递增
- **数据类型：** Series 可以容纳不同数据类型的元素，包括整数、浮点数、字符串等。

Series 是 Pandas 中的一种基本数据结构，类似于一维数组或列表，但具有标签（索引），使得数据在处理和分析时更具灵活性。

以下是关于 Pandas 中的 Series 的详细介绍： 

**创建 Series：** 可以使用 `pd.Series()` 构造函数创建一个 Series 对象，传递一个数据数组（可以是列表、NumPy 数组等）和一个可选的索引数组。


In [None]:
# pandas.Series( data, index, dtype, name, copy)
""" 
data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。
"""
# 使用列表创建series数据结构
import pandas as pd
a = [1,2,3,4]
b = pd.Series(a) # 使用列表创建series数据结构
print(b) # 索引 + 数据
print(type(b)) # <class 'pandas.core.series.Series'>

0    1
1    2
2    3
3    4
dtype: int64
<class 'pandas.core.series.Series'>


In [8]:
# 使用np中的数组创建
import pandas as pd
import numpy  as np
# 使用np中的数组创建
a = np.array([1.1, 2.2, 3.3])
# b = pd.Series(a)
b = pd.Series(a, index=["a", "b", "c"])
# b = pd.Series(a, index=[100, "b", "c"])
print(b)

a    1.1
b    2.2
c    3.3
dtype: float64


In [12]:
c = pd.Series(b, index=["a", "b"]) # 用新的索引重新构造 Series，只保留 "a" 和 "b"
print(c)

a    1.1
b    2.2
dtype: float64


In [15]:
# 使用字典创建series
sites = {1: "Google", 9: "Baidu", 3: "Souhu"} # 使用字典创建series
print(type(sites)) # 字典
var = pd.Series(sites)
var

<class 'dict'>


1    Google
9     Baidu
3     Souhu
dtype: object

In [18]:
var = pd.Series(sites, index=[1, 9]) # 只取1和9对应的值
var

1    Google
9     Baidu
dtype: object

## Pandas DataFrame

#### DataFrame 简介

**DataFrame** 是 Pandas 中最常用的二维表格型数据结构，它包含有序的列，每一列可以是不同的数据类型（如数值、字符串、布尔值等）。  
可以将 DataFrame 理解为一个“由多个 Series 按列组合而成”的表格结构，既有 **行索引**，也有 **列索引**。

---

#### DataFrame 的特点

1. 行和列
- 每一列就是一个 Series，可以有不同的数据类型。
- 每一行都有一个行索引，用于唯一标识。

2. 二维结构
- DataFrame 是一个二维的数据容器，结构类似于 Excel 表格。
- 它是多个 Series **共享一个行索引**组合而成。

3. 数据类型灵活
- 每一列可以是整数、浮点数、字符串、布尔值等。
- **每列独立定义数据类型**，互不影响，更加灵活。


In [None]:
# pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
"""
data：数据内容，可为字典、列表、二维数组、Series、字典组成的列表等格式。
index：行索引标签，默认从 0 开始的整数索引。
columns：列名列表，默认从数据中推断。
dtype：指定整体数据类型，默认自动推断。
copy：是否复制数据，默认 False。
"""

In [19]:
# 使用字典创建Dataframe
import pandas as pd

data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 28],
    '城市': ['北京', '上海', '广州']
}

df = pd.DataFrame(data, index=[1,2,3])
df

Unnamed: 0,姓名,年龄,城市
1,张三,25,北京
2,李四,30,上海
3,王五,28,广州


In [22]:
# 使用列表创建
data = [
    ['张三', 25, '北京'],
    ['李四', 30, '上海'],
    ['王五', 28, '广州']
]

df = pd.DataFrame(data, columns=['姓名', '年龄', '城市']) # 需要指定列名
# df = pd.DataFrame(data) # 需要指定列名
df

Unnamed: 0,姓名,年龄,城市
0,张三,25,北京
1,李四,30,上海
2,王五,28,广州


In [23]:
# 字典嵌套列表创建
sites = {"web_name":["Google","Baidu","Souhu"], "age":[1,3,9]}
print(type(sites))
var = pd.DataFrame(sites)
var

<class 'dict'>


Unnamed: 0,web_name,age
0,Google,1
1,Baidu,3
2,Souhu,9


In [24]:
# 列表嵌套字典
lst1 = [
    {"姓名":"qy","年龄":18,"存款":"100元"},
    {"姓名":"qc","年龄":19,"存款":"1000元"}
]
lst2 = pd.DataFrame(lst1)
lst2

Unnamed: 0,姓名,年龄,存款
0,qy,18,100元
1,qc,19,1000元


In [25]:
# 使用Series创建,创建多个series
ser1=pd.Series(["张三","李四","王五"]) # 列表创建serious
print(ser1)
ser2 = pd.Series([18,20,22])
ser3 = pd.Series([21.2,22.2,23.2])
data = pd.DataFrame({"name":ser1,"age":ser2,"money":ser3})
data.index = ["a","b","c"]
data

0    张三
1    李四
2    王五
dtype: object


Unnamed: 0,name,age,money
a,张三,18,21.2
b,李四,20,22.2
c,王五,22,23.2


In [28]:
# 使用Series创建，推荐写法
data = {
    "name":pd.Series(["张三","李四","王五"]),
    "age":pd.Series([18,20,22]),
    "money":pd.Series([21.2,22.2,23.2])
}
print(type(data))
df = pd.DataFrame(data)
df

<class 'dict'>


Unnamed: 0,name,age,money
0,张三,18,21.2
1,李四,20,22.2
2,王五,22,23.2


In [None]:
# 使用numpy数组创建
import numpy as np
import pandas as pd

data = np.array([[1, 2], [3, 4]])
df = pd.DataFrame(data, columns=['A', 'B'], index=['C', 'D'])
print(df)

   A  B
C  1  2
D  3  4


## 读取数据 

In [None]:
# pandas 读取 CSV 数据
import pandas as pd

data = pd.read_csv("TianQi.csv") # 使用相对路径
data.head() # 默认输出前五行

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
1,2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2,2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
3,2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
4,2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5


In [36]:
# pandas 读取 json 文件
import pandas as pd

df = pd.read_json('a.json')
print("df:")
print(df)
print(type(df))

df:
   id    name                url  age
0   1    点头教育  www.diantouedu.cn   10
1   2  Google     www.google.com  100
2   3      淘宝     www.taobao.com   50
<class 'pandas.core.frame.DataFrame'>


In [38]:
# pandas 读取 excel 文件
import pandas as pd
df = pd.read_excel("student_excel.xlsx")
df.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,,,,
1,,姓名,科目,分数
2,,小明,语文,85
3,,,数学,80
4,,,英语,90


## 创建数据

In [39]:
import pandas as pd

# 创建字典数据
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [25, 30, 35, 40, 45],
    '性别': ['男', '男', '女', '男', '女'],
    '存款': [10000, 20000, 30000, 40000, 50000]
}

# 将数据转换为DataFrame
df = pd.DataFrame(data)
print(df)
# 将DataFrame写入Excel文件
df.to_excel('b.xlsx', index=False) # index=False：不写入行索引

print("Excel文件生成成功！")

   姓名  年龄 性别     存款
0  张三  25  男  10000
1  李四  30  男  20000
2  王五  35  女  30000
3  赵六  40  男  40000
4  钱七  45  女  50000
Excel文件生成成功！


## 数据分析及简单清洗

In [45]:
# 天气数据分析
import pandas as pd
df = pd.read_csv("TianQi.csv")
df.head(10) # 输出前十行

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
1,2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2,2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
3,2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
4,2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5
5,2017-01-06,4℃,-2℃,霾,南风,1-2级,234,重度污染,5
6,2017-01-07,2℃,-3℃,小雪,无持续风向,微风,206,重度污染,5
7,2017-01-08,5℃,-4℃,阴~晴,北风,1-2级,59,良,2
8,2017-01-09,3℃,-5℃,晴,南风,1-2级,42,优,1
9,2017-01-10,4℃,-6℃,晴,北风,3-4级,46,优,1


In [46]:
# 设定索引为日期，方便按日期筛选
df.set_index('ymd', inplace=True) # 就地进行更改
print(df.index)
df.head()

Index(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05',
       '2017-01-06', '2017-01-07', '2017-01-08', '2017-01-09', '2017-01-10',
       ...
       '2019-12-22', '2019-12-23', '2019-12-24', '2019-12-25', '2019-12-26',
       '2019-12-27', '2019-12-28', '2019-12-29', '2019-12-30', '2019-12-31'],
      dtype='object', name='ymd', length=1095)


Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5


In [60]:
# 将温度的后缀℃去掉
# 1.使用 str.replace("℃", "") 把所有“℃”字符替换为空字符串，去掉单位符号
# 2.用 astype('int32') 将处理后的字符串转换成整数类型，方便后续数值计算
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')

In [48]:
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-01-01,5,-3,霾~晴,南风,1-2级,450,严重污染,6
2017-01-02,7,-6,晴~霾,南风,1-2级,246,重度污染,5
2017-01-03,5,-5,霾,南风,1-2级,320,严重污染,6
2017-01-04,6,-5,霾,北风,1-2级,360,严重污染,6
2017-01-05,2,-4,霾,北风,1-2级,280,重度污染,5


In [49]:
# 得到单个值
df.loc['2017-01-04', 'yWendu']

-5

In [50]:
# 得到一个Series
df2 = df.loc['2017-01-03', ['bWendu', 'yWendu']] # Series'>
print(type(df2))
df2

<class 'pandas.core.series.Series'>


bWendu     5
yWendu    -5
Name: 2017-01-03, dtype: object

In [51]:
# 得到DataFrame
df.loc[['2017-01-03','2017-01-04','2017-01-05'], ['bWendu', 'yWendu']]

Unnamed: 0_level_0,bWendu,yWendu
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-01-03,5,-5
2017-01-04,6,-5
2017-01-05,2,-4


In [52]:
# 行和列都按区间查询 : 注意 dataframe的切片包含两端
df.loc['2017-01-03':'2017-01-05', 'bWendu':'fengxiang']

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-01-03,5,-5,霾,南风
2017-01-04,6,-5,霾,北风
2017-01-05,2,-4,霾,北风


In [53]:
df.loc[df["yWendu"]<-10, :] # 布尔查询 只要为True的部分

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-23,-4,-12,晴,西北风,3-4级,31,优,1
2018-01-24,-4,-11,晴,西南风,1-2级,34,优,1
2018-01-25,-3,-11,多云,东北风,1-2级,27,优,1
2018-12-26,-2,-11,晴~多云,东北风,2级,26,优,1
2018-12-27,-5,-12,多云~晴,西北风,3级,48,优,1
2018-12-28,-3,-11,晴,西北风,3级,40,优,1
2018-12-29,-3,-12,晴,西北风,2级,29,优,1
2018-12-30,-2,-11,晴~多云,东北风,1级,31,优,1
2019-12-30,-5,-12,晴,西北风,4级,37,优,1


In [54]:
## 查询白天温度小于等于30度，并且夜间温度温度大于等于16度，并且是晴天，并且天气为优的数据   &代表都要满足为真才为真     |为或 有一个为真则为真 
df.loc[(df["bWendu"]<=30) & (df["yWendu"]>=16) & (df["tianqi"]=='晴') & (df["aqiLevel"]==1), :]

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-08-29,25,16,晴,西南风,1-2级,42,优,1
2017-09-11,29,16,晴,北风,1-2级,43,优,1
2017-09-17,29,16,晴,南风,1-2级,39,优,1
2018-08-24,30,20,晴,北风,1-2级,40,优,1
2018-09-07,27,16,晴,西北风,3-4级,22,优,1
2019-08-24,30,18,晴,西南风,2级,50,优,1
2019-08-30,30,18,晴,西北风,2级,25,优,1


In [58]:
# 天气数据分析
import pandas as pd
df = pd.read_csv("TianQi.csv")
df.head(10) # 输出前十行

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
1,2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2,2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
3,2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
4,2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5
5,2017-01-06,4℃,-2℃,霾,南风,1-2级,234,重度污染,5
6,2017-01-07,2℃,-3℃,小雪,无持续风向,微风,206,重度污染,5
7,2017-01-08,5℃,-4℃,阴~晴,北风,1-2级,59,良,2
8,2017-01-09,3℃,-5℃,晴,南风,1-2级,42,优,1
9,2017-01-10,4℃,-6℃,晴,北风,3-4级,46,优,1


In [56]:
# iloc 切片左闭右开 基于位置的索引
df.iloc[0:2,0:3]

Unnamed: 0,ymd,bWendu,yWendu
0,2017-01-01,5℃,-3℃
1,2017-01-02,7℃,-6℃


In [65]:
# 新增数据列
# 注意，df["bWendu"]其实是一个Series，后面的减法返回的是Series
import pandas as pd
df = pd.read_csv("TianQi.csv")
df.set_index('ymd', inplace=True)
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "wencha"] = df["bWendu"] - df["yWendu"]
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2017-01-01,5,-3,霾~晴,南风,1-2级,450,严重污染,6,8
2017-01-02,7,-6,晴~霾,南风,1-2级,246,重度污染,5,13
2017-01-03,5,-5,霾,南风,1-2级,320,严重污染,6,10
2017-01-04,6,-5,霾,北风,1-2级,360,严重污染,6,11
2017-01-05,2,-4,霾,北风,1-2级,280,重度污染,5,6


In [67]:
# 统计函数
# 读取数据
import pandas as pd
df = pd.read_csv("TianQi.csv")
df.set_index('ymd', inplace=True)
# 将温度的后缀℃去掉
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')
# df.head()
df.describe()

Unnamed: 0,aqi,aqiLevel
count,1095.0,1095.0
mean,79.936986,2.061187
std,51.320164,1.000411
min,15.0,1.0
25%,46.0,1.0
50%,67.0,2.0
75%,99.0,2.0
max,450.0,6.0


###  df.describe() 返回的统计指标包括：
- **count**：非空值的数量  
- **mean**：平均值  
- **std**：标准差（衡量数据波动大小）  
- **min**：最小值  
- **25%**：第一四分位数（25%分位点）  
- **50%**：中位数（50%分位点）  
- **75%**：第三四分位数（75%分位点）  
- **max**：最大值  


In [68]:
## 白天温度求平均
df["bWendu"].mean()

19.157990867579908

In [69]:
# 白天最高温
df["bWendu"].max()

38

In [70]:
# 白天最低温
df["bWendu"].min()

-5

In [71]:
df["fengxiang"].unique() # 去重

array(['南风', '北风', '无持续风向', '东南风', '西南风', '东北风', '东风', '西北风', '西风'],
      dtype=object)

In [72]:
# 按值计数
df["fengxiang"].value_counts()

fengxiang
南风       264
西南风      192
西北风      171
东南风      157
东北风      131
北风       128
东风        35
西风        10
无持续风向      7
Name: count, dtype: int64

## 缺失值处理

In [81]:
# 案例二   缺失值处理
stu = pd.read_excel("student_excel.xlsx", skiprows=2) # 跳过读取前两行
stu

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
3,,,,
4,,小王,语文,85.0
5,,,数学,
6,,,英语,90.0
7,,,,
8,,小刚,语文,85.0
9,,,数学,80.0


In [82]:
# 检测空值
stu.isnull() # 为空值的部分返回True

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,True,False,False,False
1,True,True,False,False
2,True,True,False,False
3,True,True,True,True
4,True,False,False,False
5,True,True,False,True
6,True,True,False,False
7,True,True,True,True
8,True,False,False,False
9,True,True,False,False


In [83]:
stu["分数"].notnull() # 检测分数这一列非空的部分 非空的部分返回True

0      True
1      True
2      True
3     False
4      True
5     False
6      True
7     False
8      True
9      True
10     True
Name: 分数, dtype: bool

In [84]:
# 筛选没有空分数的所有行，有空分数的行不选
stu.loc[stu["分数"].notnull(), :] # 选取满足条件的行，列全选

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
4,,小王,语文,85.0
6,,,英语,90.0
8,,小刚,语文,85.0
9,,,数学,80.0
10,,,英语,90.0


In [85]:
stu.dropna(axis="columns", how='all', inplace=True) # 删除全是空值的列 all是全为NAN才会删除 any是只要有一个nan则删除
stu

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小刚,语文,85.0
9,,数学,80.0


In [86]:
stu.dropna(axis="index", how='all', inplace=True) # 删除全是空值的行
stu

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [87]:
# stu.loc[:, '分数'] = stu['分数'].fillna(0) # 将分数列为空的填充为0分
mean_score = stu['分数'].mean()  # 计算平均分
print(mean_score)
stu.loc[:, '分数'] = stu['分数'].fillna(mean_score)  # 用平均分填充 fillna是pandas用来填充缺失值（NaN）的函数。
stu

85.625


Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,85.625
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [88]:
# fillna(method="ffill") 是用来“向前填充”缺失值的方法。
# 在“姓名”列里，如果有缺失值（NaN），就用它上面最近的那个非空值去填充它。
stu.loc[:, '姓名'] = stu['姓名'].fillna(method="ffill") # 将姓名的缺失值填充
stu

  stu.loc[:, '姓名'] = stu['姓名'].fillna(method="ffill") # 将姓名的缺失值填充


Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,85.625
6,小王,英语,90.0
8,小刚,语文,85.0
9,小刚,数学,80.0
10,小刚,英语,90.0


In [89]:
stu.to_excel("student_excel_clean.xlsx", index=False) # 将清洗好的excel保存

## 排序

In [None]:
# 排序函数
# 按空气质量等级、最高温度排序，默认升序
import pandas as pd
df = pd.read_csv("TianQi.csv")
df.set_index('ymd', inplace=True)
# 将温度的后缀℃去掉
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')

df.sort_values(by=["bWendu","yWendu"],inplace=True) # ascending 默认True，代表升序
df

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-12-27,-5,-12,多云~晴,西北风,3级,48,优,1
2019-12-30,-5,-12,晴,西北风,4级,37,优,1
2018-01-23,-4,-12,晴,西北风,3-4级,31,优,1
2018-01-24,-4,-11,晴,西南风,1-2级,34,优,1
2018-12-07,-4,-10,晴,西北风,3级,33,优,1
...,...,...,...,...,...,...,...,...
2018-06-29,37,25,晴,南风,1-2级,59,良,2
2019-07-26,37,27,晴,西南风,2级,73,良,2
2017-06-15,38,24,晴,南风,1-2级,82,良,2
2018-06-05,38,25,多云,西南风,4-5级,94,良,2


In [91]:
# 分别指定升序和降序
df.sort_values(by=["aqiLevel", "bWendu"], ascending=[True, False],inplace=True) # 为True代表升序 为False代表降序
df

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-06-29,35,23,多云,西北风,3级,40,优,1
2019-07-01,35,23,晴~多云,东北风,1级,36,优,1
2017-08-07,35,24,多云~晴,南风,1-2级,40,优,1
2018-06-28,35,24,多云~晴,北风,1-2级,33,优,1
2017-08-06,34,24,多云~晴,南风,1-2级,42,优,1
...,...,...,...,...,...,...,...,...
2017-02-04,9,-2,晴,北风,1-2级,303,严重污染,6
2017-01-04,6,-5,霾,北风,1-2级,360,严重污染,6
2017-01-03,5,-5,霾,南风,1-2级,320,严重污染,6
2017-01-01,5,-3,霾~晴,南风,1-2级,450,严重污染,6


## 合并和拼接

In [94]:
# 基于某些键（列）合并数据时，merge是最适合的，比如合并两个包含相同ID列的客户信息表
import pandas as pd

# 创建第一个DataFrame df1，包含两列：'key' 和 'value1'
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],      # 键列，代表唯一标识
    'value1': [1, 2, 3, 4]            # 其他数据列
})
# 创建第二个DataFrame df2，包含两列：'key' 和 'value2'
df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],      # 键列，部分和df1相同，部分不同
    'value2': [5, 6, 7, 8]            # 其他数据列
})

# 使用pd.merge函数合并df1和df2，基于"key"列进行匹配
# how="outer" 表示使用外连接，即取两个表中所有键的并集 指定为inner只保留两个表共有的key（交集）
# 如果某个键只出现在一个表中，另一个表对应的列则填充NaN（缺失值）
result1 = pd.merge(df1, df2, on="key", how="outer")
result2 = pd.merge(df1, df2, on="key", how="inner")
print(df1)
print(df2)
print(result1)
print(result2)

  key  value1
0   A       1
1   B       2
2   C       3
3   D       4
  key  value2
0   B       5
1   D       6
2   E       7
3   F       8
  key  value1  value2
0   A     1.0     NaN
1   B     2.0     5.0
2   C     3.0     NaN
3   D     4.0     6.0
4   E     NaN     7.0
5   F     NaN     8.0
  key  value1  value2
0   B       2       5
1   D       4       6


In [97]:
# 需要将多个数据表按行叠加或按列并排时，pd.concat()更合适
import pandas as pd

# 创建第一个学生信息表 df1，包含姓名和语文成绩
df1 = pd.DataFrame({
    '姓名': ['张三', '李四', '王五'],
    '语文': [85, 90, 88]
})

# 创建第二个学生信息表 df2，包含姓名和数学成绩
df2 = pd.DataFrame({
    '姓名': ['李四', '王五', '赵六'],
    '数学': [92, 87, 80]
})

print("原始 df1（语文成绩表）:")
print(df1)

print("\n原始 df2（数学成绩表）:")
print(df2)

# 使用 pd.concat 进行按行拼接
# axis=0 表示按行拼接（竖着接）
# join='inner' 表示只保留两个表都包含的列（交集，这里是 '姓名'）
# ignore_index=True 表示拼接后重新编号索引
concat_result_rows = pd.concat([df1, df2], axis=0, join='inner', ignore_index=True)

# 如果想保留所有列，用 join='outer'，缺失的数据用 NaN 填充
concat_result_outer = pd.concat([df1, df2], axis=0, join='outer', ignore_index=True)

print("\n按行拼接后的结果（只保留 '姓名' 列）：")
print(concat_result_rows)
print("\n按行拼接后的结果 outer 拼接：")
print(concat_result_outer)

# 如果想保留所有列，用 join='outer'，缺失的数据用 NaN 填充
# concat_result_outer = pd.concat([df1, df2], axis=0, join='outer', ignore_index=True)

原始 df1（语文成绩表）:
   姓名  语文
0  张三  85
1  李四  90
2  王五  88

原始 df2（数学成绩表）:
   姓名  数学
0  李四  92
1  王五  87
2  赵六  80

按行拼接后的结果（只保留 '姓名' 列）：
   姓名
0  张三
1  李四
2  王五
3  李四
4  王五
5  赵六

按行拼接后的结果 outer 拼接：
   姓名    语文    数学
0  张三  85.0   NaN
1  李四  90.0   NaN
2  王五  88.0   NaN
3  李四   NaN  92.0
4  王五   NaN  87.0
5  赵六   NaN  80.0


In [98]:
import pandas as pd
# 指定axis=1
# 创建两个 DataFrame，行数相同但列不同
df1 = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

df2 = pd.DataFrame({
    'C': ['a', 'b', 'c'],
    'D': ['x', 'y', 'z']
})

print("df1:")
print(df1)

print("\ndf2:")
print(df2)

# 使用 axis=1 进行横向拼接（按列拼接）
df_concat = pd.concat([df1, df2], axis=1)

print("\n按列拼接（axis=1）后的结果：")
print(df_concat)

df1:
   A  B
0  1  4
1  2  5
2  3  6

df2:
   C  D
0  a  x
1  b  y
2  c  z

按列拼接（axis=1）后的结果：
   A  B  C  D
0  1  4  a  x
1  2  5  b  y
2  3  6  c  z
