Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。

**Series 特点：**
- **索引：** 每个 Series 都有一个索引，它可以是整数、字符串、日期等类型。如果没有显式指定索引，Pandas 会自动创建一个默认的整数索引。从0开始递增
- **数据类型：** Series 可以容纳不同数据类型的元素，包括整数、浮点数、字符串等。

Series 是 Pandas 中的一种基本数据结构，类似于一维数组或列表，但具有标签（索引），使得数据在处理和分析时更具灵活性。

以下是关于 Pandas 中的 Series 的详细介绍： 

**创建 Series：** 可以使用 `pd.Series()` 构造函数创建一个 Series 对象，传递一个数据数组（可以是列表、NumPy 数组等）和一个可选的索引数组。


In [1]:
# pandas.Series( data, index, dtype, name, copy)
""" 
data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。
"""
import pandas as pd
a = [1,2,3,4]
b = pd.Series(a)
b

0    1
1    2
2    3
3    4
dtype: int64

In [3]:
import pandas as pd
a = [1,2,3,4]
b = pd.Series(a,index=("a","b","c","d"))
b

a    1
b    2
c    3
d    4
dtype: int64

In [8]:
sites = {1: "Google", 9: "Baidu", 3: "Souhu"}
print(type(sites))
var = pd.Series(sites)
var

<class 'dict'>


1    Google
9     Baidu
3     Souhu
dtype: object

In [10]:
var = pd.Series(sites,index=[1,9])
var

1    Google
9     Baidu
dtype: object

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

**DataFrame 特点：**

1. **列和行：** DataFrame 由多个列组成，每一列都有一个名称，可以看作是一个 Series。同时，DataFrame 有一个行索引，用于标识每一行。

2. **二维结构：** DataFrame 是一个二维表格，具有行和列。可以将其视为多个 Series 对象组成的字典。

3. **列的数据类型：** 不同的列可以包含不同的数据类型，例如整数、浮点数、字符串等。


In [None]:
# 使用列表创建Dataframe

In [17]:
# 列表嵌套创建
data = [['张三',18],['李四',20],['王五',21]]
df = pd.DataFrame(data,columns=["姓名","年龄",])
df

Unnamed: 0,姓名,年龄
1,张三,18
2,李四,20
3,王五,21


In [19]:
# 字典嵌套列表创建
sites = {"web_name":["Google","Baidu","Souhu"], "age":[1,3,9]}
print(type(sites))
var = pd.DataFrame(sites)
var

<class 'dict'>


Unnamed: 0,web_name,age
0,Google,1
1,Baidu,3
2,Souhu,9


In [20]:
# 使用Series创建
data = {
    "name":pd.Series(["张三","李四","王五"]),
    "age":pd.Series([18,20,22]),
    "money":pd.Series([21.2,22.2,23.2])
}
data = pd.DataFrame(data)
data


Unnamed: 0,name,age,money
0,张三,18,21.2
1,李四,20,22.2
2,王五,22,23.2


In [13]:
# 读取数据
import pandas as pd
pd.read_csv("D:\课程\TianQi.csv")

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
1,2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2,2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
3,2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
4,2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5
...,...,...,...,...,...,...,...,...,...
1090,2019-12-27,4℃,-6℃,晴,东北风,1级,69,良,2
1091,2019-12-28,3℃,-7℃,晴~多云,东北风,1级,100,良,2
1092,2019-12-29,5℃,-7℃,多云~晴,西北风,3级,133,轻度污染,3
1093,2019-12-30,-5℃,-12℃,晴,西北风,4级,37,优,1


In [9]:
# json文件
import pandas as pd

df = pd.read_json('a.json')
df
# print(type(df))

Unnamed: 0,id,name,url,age
0,1,点头教育,www.diantouedu.cn,10
1,2,Google,www.google.com,100
2,3,淘宝,www.taobao.com,50


In [11]:
# import pandas as pd

# # 创建数据
# data = {
#     '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
#     '年龄': [25, 30, 35, 40, 45],
#     '性别': ['男', '男', '女', '男', '女'],
#     '存款': [10000, 20000, 30000, 40000, 50000]
# }

# # 将数据转换为DataFrame
# df = pd.DataFrame(data)

# # 将DataFrame写入Excel文件
# df.to_excel('b.xlsx', index=False)

# print("Excel文件生成成功！")


Excel文件生成成功！


In [48]:
# 读取数据
import pandas as pd
df = pd.read_csv("D:\课程\TianQi.csv")
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
1,2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2,2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
3,2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
4,2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5


In [49]:
# 设定索引为日期，方便按日期筛选
df.set_index('ymd', inplace=True)
df.index

Index(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05',
       '2017-01-06', '2017-01-07', '2017-01-08', '2017-01-09', '2017-01-10',
       ...
       '2019-12-22', '2019-12-23', '2019-12-24', '2019-12-25', '2019-12-26',
       '2019-12-27', '2019-12-28', '2019-12-29', '2019-12-30', '2019-12-31'],
      dtype='object', name='ymd', length=1095)

In [50]:
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-01-01,5℃,-3℃,霾~晴,南风,1-2级,450,严重污染,6
2017-01-02,7℃,-6℃,晴~霾,南风,1-2级,246,重度污染,5
2017-01-03,5℃,-5℃,霾,南风,1-2级,320,严重污染,6
2017-01-04,6℃,-5℃,霾,北风,1-2级,360,严重污染,6
2017-01-05,2℃,-4℃,霾,北风,1-2级,280,重度污染,5


In [51]:
# 将温度的后缀℃去掉
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')

In [52]:
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-01-01,5,-3,霾~晴,南风,1-2级,450,严重污染,6
2017-01-02,7,-6,晴~霾,南风,1-2级,246,重度污染,5
2017-01-03,5,-5,霾,南风,1-2级,320,严重污染,6
2017-01-04,6,-5,霾,北风,1-2级,360,严重污染,6
2017-01-05,2,-4,霾,北风,1-2级,280,重度污染,5


In [31]:
# 得到单个值
df.loc['2017-01-03', 'bWendu']

5

In [32]:
# 得到一个Series
df.loc['2017-01-03', ['bWendu', 'yWendu']]

bWendu     5
yWendu    -5
Name: 2017-01-03, dtype: object

In [33]:
# 得到DataFrame
df.loc[['2017-01-03','2017-01-04','2017-01-05'], ['bWendu', 'yWendu']]

Unnamed: 0_level_0,bWendu,yWendu
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-01-03,5,-5
2017-01-04,6,-5
2017-01-05,2,-4


In [43]:
# 行和列都按区间查询
df.loc['2017-01-03':'2017-01-05', 'bWendu':'fengxiang']

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-01-03,5,-5,霾,南风
2017-01-04,6,-5,霾,北风
2017-01-05,2,-4,霾,北风


In [44]:
df.loc[df["yWendu"]<-10, :] # 布尔查询

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-01-23,-4,-12,晴,西北风,3-4级,31,优,1
2018-01-24,-4,-11,晴,西南风,1-2级,34,优,1
2018-01-25,-3,-11,多云,东北风,1-2级,27,优,1
2018-12-26,-2,-11,晴~多云,东北风,2级,26,优,1
2018-12-27,-5,-12,多云~晴,西北风,3级,48,优,1
2018-12-28,-3,-11,晴,西北风,3级,40,优,1
2018-12-29,-3,-12,晴,西北风,2级,29,优,1
2018-12-30,-2,-11,晴~多云,东北风,1级,31,优,1
2019-12-30,-5,-12,晴,西北风,4级,37,优,1


In [56]:
## 查询最高温度小于30度，并且最低温度大于16度，并且是晴天，并且天气为优的数据
df.loc[(df["bWendu"]<=30) & (df["yWendu"]>=16) & (df["tianqi"]=='晴') & (df["aqiLevel"]==1), :]

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-08-29,25,16,晴,西南风,1-2级,42,优,1
2017-09-11,29,16,晴,北风,1-2级,43,优,1
2017-09-17,29,16,晴,南风,1-2级,39,优,1
2018-08-24,30,20,晴,北风,1-2级,40,优,1
2018-09-07,27,16,晴,西北风,3-4级,22,优,1
2019-08-24,30,18,晴,西南风,2级,50,优,1
2019-08-30,30,18,晴,西北风,2级,25,优,1


In [58]:
# 新增数据列
# 注意，df["bWendu"]其实是一个Series，后面的减法返回的是Series
df.loc[:, "wencha"] = df["bWendu"] - df["yWendu"]
df.head()

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2017-01-01,5,-3,霾~晴,南风,1-2级,450,严重污染,6,8
2017-01-02,7,-6,晴~霾,南风,1-2级,246,重度污染,5,13
2017-01-03,5,-5,霾,南风,1-2级,320,严重污染,6,10
2017-01-04,6,-5,霾,北风,1-2级,360,严重污染,6,11
2017-01-05,2,-4,霾,北风,1-2级,280,重度污染,5,6


In [69]:
# 统计函数
# 读取数据
import pandas as pd
df = pd.read_csv("D:\课程\TianQi.csv")
df.set_index('ymd', inplace=True)
# 将温度的后缀℃去掉
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')
# df.head()
df.describe()

Unnamed: 0,aqi,aqiLevel
count,1095.0,1095.0
mean,79.936986,2.061187
std,51.320164,1.000411
min,15.0,1.0
25%,46.0,1.0
50%,67.0,2.0
75%,99.0,2.0
max,450.0,6.0


In [70]:
## 查看单个Series的数据
df["bWendu"].mean()

19.157990867579908

In [71]:
# 最高温
df["bWendu"].max()

38

In [72]:
# 最低温
df["bWendu"].min()

-5

In [73]:
df["fengxiang"].unique() # 去重

array(['南风', '北风', '无持续风向', '东南风', '西南风', '东北风', '东风', '西北风', '西风'],
      dtype=object)

In [74]:
# 按值计数
df["fengxiang"].value_counts()

fengxiang
南风       264
西南风      192
西北风      171
东南风      157
东北风      131
北风       128
东风        35
西风        10
无持续风向      7
Name: count, dtype: int64

In [76]:
# 缺失值处理
stu = pd.read_excel("student_excel.xlsx", skiprows=2)
stu

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
3,,,,
4,,小王,语文,85.0
5,,,数学,
6,,,英语,90.0
7,,,,
8,,小刚,语文,85.0
9,,,数学,80.0


In [78]:
# 检测空值
stu.isnull()

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,True,False,False,False
1,True,True,False,False
2,True,True,False,False
3,True,True,True,True
4,True,False,False,False
5,True,True,False,True
6,True,True,False,False
7,True,True,True,True
8,True,False,False,False
9,True,True,False,False


In [80]:
stu["分数"].notnull()

0      True
1      True
2      True
3     False
4      True
5     False
6      True
7     False
8      True
9      True
10     True
Name: 分数, dtype: bool

In [81]:
# 筛选没有空分数的所有行
stu.loc[stu["分数"].notnull(), :]

Unnamed: 0.1,Unnamed: 0,姓名,科目,分数
0,,小明,语文,85.0
1,,,数学,80.0
2,,,英语,90.0
4,,小王,语文,85.0
6,,,英语,90.0
8,,小刚,语文,85.0
9,,,数学,80.0
10,,,英语,90.0


In [85]:
stu.dropna(axis="columns", how='all', inplace=True) # 删除全是空值的列
stu

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
3,,,
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
7,,,
8,小刚,语文,85.0
9,,数学,80.0


In [86]:
stu.dropna(axis="index", how='all', inplace=True) # 删除全是空值的行
stu

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [87]:
stu.loc[:, '分数'] = stu['分数'].fillna(0) # 将分数列为空的填充为0分
stu

Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,,数学,80.0
2,,英语,90.0
4,小王,语文,85.0
5,,数学,0.0
6,,英语,90.0
8,小刚,语文,85.0
9,,数学,80.0
10,,英语,90.0


In [89]:
stu.loc[:, '姓名'] = stu['姓名'].fillna(method="ffill") # 将姓名的缺失值填充
stu

  stu.loc[:, '姓名'] = stu['姓名'].fillna(method="ffill") # 将姓名的缺失值填充


Unnamed: 0,姓名,科目,分数
0,小明,语文,85.0
1,小明,数学,80.0
2,小明,英语,90.0
4,小王,语文,85.0
5,小王,数学,0.0
6,小王,英语,90.0
8,小刚,语文,85.0
9,小刚,数学,80.0
10,小刚,英语,90.0


In [91]:
stu.to_excel("student_excel_clean.xlsx",index=False) # 将清洗好的excel保存

In [93]:
# 排序
# 按空气质量等级、最高温度排序，默认升序
import pandas as pd
df = pd.read_csv("D:\课程\TianQi.csv")
df.set_index('ymd', inplace=True)
# 将温度的后缀℃去掉
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')

df.sort_values(by=["aqiLevel", "bWendu"])
df

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-01-01,5,-3,霾~晴,南风,1-2级,450,严重污染,6
2017-01-02,7,-6,晴~霾,南风,1-2级,246,重度污染,5
2017-01-03,5,-5,霾,南风,1-2级,320,严重污染,6
2017-01-04,6,-5,霾,北风,1-2级,360,严重污染,6
2017-01-05,2,-4,霾,北风,1-2级,280,重度污染,5
...,...,...,...,...,...,...,...,...
2019-12-27,4,-6,晴,东北风,1级,69,良,2
2019-12-28,3,-7,晴~多云,东北风,1级,100,良,2
2019-12-29,5,-7,多云~晴,西北风,3级,133,轻度污染,3
2019-12-30,-5,-12,晴,西北风,4级,37,优,1


In [94]:
# 分别指定升序和降序
df.sort_values(by=["aqiLevel", "bWendu"], ascending=[True, False])

Unnamed: 0_level_0,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
ymd,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2017-08-07,35,24,多云~晴,南风,1-2级,40,优,1
2018-06-28,35,24,多云~晴,北风,1-2级,33,优,1
2019-06-29,35,23,多云,西北风,3级,40,优,1
2019-07-01,35,23,晴~多云,东北风,1级,36,优,1
2017-08-06,34,24,多云~晴,南风,1-2级,42,优,1
...,...,...,...,...,...,...,...,...
2017-02-04,9,-2,晴,北风,1-2级,303,严重污染,6
2017-01-04,6,-5,霾,北风,1-2级,360,严重污染,6
2017-01-01,5,-3,霾~晴,南风,1-2级,450,严重污染,6
2017-01-03,5,-5,霾,南风,1-2级,320,严重污染,6


In [103]:
import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'],
                    'value': [5, 6, 7, 8]})

# 使用merge函数进行合并
result = pd.merge(df1, df2,on="key",how="outer")
print(df1)
print(df2)
print(result)

  key  value
0   A      1
1   B      2
2   C      3
3   D      4
  key  value
0   B      5
1   D      6
2   E      7
3   F      8
  key  value_x  value_y
0   A      1.0      NaN
1   B      2.0      5.0
2   C      3.0      NaN
3   D      4.0      6.0
4   E      NaN      7.0
5   F      NaN      8.0
