## 3.1 Pandas 数据结构的介绍
### 3.1.2 Series 数据类型的运算

In [None]:
from pandas import Series

goods_in = Series({"苹果": 30, "梨": 25, "香蕉": 20, "桃": 21, "李子": 15})
goods_other_in = Series({"苹果": 10, "梨": 20, "香蕉": 15, "桃": 10, "西瓜": 50})
goods_kucun = goods_in + goods_other_in
print(f"库存:\n[{goods_kucun}]")
print("注：一个 Series 中有索引而另一个没有，相加后结果为 NAN （表示空值）")

In [None]:
import numpy as np

goods = Series([30, 25, 20, 21, np.nan], index=["苹果", "梨", "香蕉", "桃", "李子"])
print(f"original Series:\n{goods}")
goods["李子"] = 15
print(f"Series after assigning new values:\n{goods}")

### 3.1.3 DataFrame 数据结构

In [None]:
from pandas import DataFrame

data = {
    "字画名称": ["旭日东升", "富水长流", "招财进宝", "鸿运当头"],
    "字画底价": [2860, 498, 1068, 598],
    "字画拍卖加价": [1000, 2000, 500, 1500],
}
df = DataFrame(data)
print(f"原始数据:\n{df}")
print("-" * 20)
df1 = DataFrame(data, columns=["字画名称", "字画拍卖加价", "字画底价"])
print(f"交换列顺序:\n{df1}")

DataFrame最终是按照columns指定的顺序排列的。如果传入的列名在数据中是无法找到的,就会产生NaN值。  

In [None]:
df2 = DataFrame(
    data, columns=["字画名称", "字画拍卖加价", "字画底价", "字画所属人"]
)
print(f"插入无数据的新列:\n{df2}")

列名被指定DataFrame结构时可以通过类似字典标记的方式将列获取为一个Series结构。  
代码中定义了字画的DataFrame之后,直接通过goods_in["字画底价"]来访问“字画底价”这个维度的数据,获取的是一个Series结构的数据。  
返回的Series拥有与原DataFrame相同的索引,且其索引值也已经被相应地设置好了。

In [None]:
df3 = DataFrame(data, index=["第一幅", "第二幅", "第三幅", "第四幅"])
data_price = df3["字画底价"]
print(f"仅列出字画低价列:\n{data_price}")

可以通过位置和名称的方式访问行。  
使用goods_in.loc["第三幅"] 来获取行数据,其中loc就是位置的关键词,“第三幅”就是索引的名称。


In [None]:
data_3 = df3.loc["第三幅"]
print(f"仅列出“第三幅”所在行的数据:\n{data_3}")

利用标签的切片运算也可以获取多行和多列。  

In [None]:
data_4 = df3.loc[["第三幅", "第四幅"], ["字画名称", "字画底价"]]
print(f"沿axis=1的方向切片:\n{data_4}")

对DataFrame数据的选取也可以通过布尔型数组实现。  

In [None]:
data_5 = df3.loc[df3["字画底价"] > 500, :]
print(f"筛选出字画底价大于500的作品:\n{data_5}")
print(f"-" * 20)
data_6 = df3.loc[
    (df3["字画底价"] > 500) & (df3["字画拍卖加价"] > 1000), :
]
print(f"筛选出字画底价大于500，字画拍卖加价大于1000的作品:\n{data_6}")

### 3.1.4 DataFrame 数据的修改

In [None]:
from pandas import DataFrame

data = {
    "字画名称": ["旭日东升", "富水长流", "招财进宝", "鸿运当头"],
    "字画底价": [2860, 498, 1068, 598],
    "字画拍卖加价": [1000, 2000, 500, 1500],
}
df = DataFrame(
    data, columns=["字画名称", "字画底价", "字画拍卖加价", "字画所属人"]
)
print(f"原始数据:\n{df}")
print(f"-" * 20)
df["字画所属人"] = "张三"
print(f"填充“张三”为字画所熟人:\n{df}")
print(f"-" * 20)
df["字画所属人"] = ["张三", "李四", "王五", "赵六"]
print(f"分别为每条数据添加字画所属人:\n{df}")

可通过del DataFrame名["列名"]格式来进行删除操作。

In [None]:
del df["字画所属人"]
print(f"删除“字画所属人”列:\n{df}")

### 3.1.5 DataFrame 中的索引对象
注意：索引对象不可修改。

### 3.1.6 层次化索引
层次化索引使用户能在一个轴上拥有多个索引级别，即能以低纬度形式处理高维度数据。

In [None]:
from pandas import DataFrame

data = {
    "字画名称": ["旭日东升", "富水长流", "招财进宝", "鸿运当头"],
    "字画底价": [2860, 498, 1068, 598],
    "字画拍卖加价": [1000, 2000, 500, 1500],
}
df = DataFrame(
    data,
    index=[
        ["第一拍卖现场", "第一拍卖现场", "第二拍卖现场", "第二拍卖现场"],
        ["第一幅", "第二幅", "第一幅", "第二幅"],
    ],
)
print(f"层次化索引后的 dataframe:\n{df}")
print(f"-" * 20)
df_indexes = df.index
print(f"goods_in_indexes:\n{df_indexes}")

 选取数据子集。

In [None]:
df_second = df.loc["第二拍卖现场"]
print(f"仅选取第二拍卖现场的数据:\n{df_second}")
print(f"-" * 20)
df_second_first = df.loc["第二拍卖现场", "第一幅"]
print(f"仅选取第二拍卖现场第一幅画的数据:\n{df_second_first}")

 通过 unstack() 方法将二级列索引转换为二级行索引。
 还可通过 stack() 方法进行逆向操作。

In [None]:
print(f"原始数据:\n{df}")
print(f"-" * 20)
df_stack = df.unstack()
print(f"转换索引后的数据:\n{df_stack}")
print(f"-" * 20)
df_stack = df.unstack().stack()
print(f"二次转换索引后的数据:\n{df.unstack().stack()}")

## 3.2 Pandas 数据结构中的基本数据操作
### 3.2.1 重新索引

In [None]:
from pandas import DataFrame

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC"],
    "最低报价": [38.78, 9.80, 39.48],
    "最高报价": [49.80, 14.10, 58.78],
}
df = DataFrame(data, index=["第一辆车", "第二辆车", "第三辆车"])
print(f"原始数据:\n{df}")
print(f"-" * 20)
other_df = df.reindex(["第三辆车", "第二辆车", "第一辆车"])
print(f"调整索引后的数据:\n{other_df}")

缺少数据时的前填充。

In [None]:
other_df = df.reindex(
    ["第三辆车", "第二辆车", "第一辆车", "第四辆车"], fill_value=7.9
)
print(f"直接填充数字后的数据:\n{other_df}")
print(f"-" * 20)
df = DataFrame(data, index=[1, 2, 3])
other_df = df.reindex([1, 2, 3, 4], method="ffill")
print(f"使用 ffill 方法填充后的数据:\n{other_df}")
print(f"-" * 20)
other_df = df.reindex([1, 2, 4, 3], method="bfill")
print(f"使用 bfill 方法填充后的数据:\n{other_df}")

### 3.2.2 删除指定轴上的项

In [None]:
from pandas import DataFrame

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC"],
    "最低报价": [38.78, 9.80, 39.48],
    "最高报价": [49.80, 14.10, 58.78],
}
df = DataFrame(data, index=[1, 2, 3])
print(f"原始数据:\n{df}")
print(f"-" * 20)
df = df.drop(2)
print(f"删除第二行后的数据:\n{df}")
print(f"-" * 20)
df = df.drop("最低报价", axis=1)
print(f"删除\"最低报价\"列后的数据:\n{df}")

### 3.2.3 算数运算和数据对齐
非共有索引项会显示 Nan。

In [None]:
from pandas import DataFrame

kindergarden1 = {
    "小朋友数目": {"1班": 32, "2班": 20},
    "小朋友睡床": {"1班": 40, "2班": 30},
    "上课教室": {"1班": 3, "2班": 2},
}
kindergarden2 = {
    "小朋友数目": {"1班": 10, "2班": 21, "3班": 15},
    "小朋友睡床": {"1班": 11, "2班": 21, "3班": 16},
    "上课教室": {"1班": 1, "2班": 2, "3班": 2},
}
kindergarden_dataframe1 = DataFrame(kindergarden1)
kindergarden_dataframe2 = DataFrame(kindergarden2)
kindergarden_all1 = kindergarden_dataframe1+kindergarden_dataframe2
print(f"all kindergarden data using “+”:\n{kindergarden_all1}")
print(f"-"*20)
kindergarden_all2 = kindergarden_dataframe1.add(kindergarden_dataframe2,fill_value=0)
print(f"all kindergarden data using “add”:\n{kindergarden_all2}")

 定义数据时使用 DataFrame 和Series 类型，可直接使用 “+” 合并数据。

In [None]:
from pandas import DataFrame, Series

kindergarden1={"小朋友数目":[32,20],"小朋友睡床":[40,30],"上课教室": [3,2]}
kindergarden2={"小朋友数目":16,"小朋友睡床":19,"上课教室":2}
kindergarden_dataframe1 = DataFrame(kindergarden1)
kindergarden_series1 = Series(kindergarden2)
kindergarden_all = kindergarden_dataframe1+kindergarden_series1
print(f"combined dataframe:\n{kindergarden_all}")

## 3.3 数据处理
### 3.3.1 判断缺失数据

In [None]:
from pandas import DataFrame
import numpy as np

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC"],
    "最低报价": [np.nan, 9.80, 20.00],
    "最高报价": [49.80, np.nan, 58.78],
}
df = DataFrame(data, index=[1, 2, 3])
print(f"original data:\n{df}")
print(f"-" * 20)
df_isnull = df.isnull()
print(f"查找 nan 单元格:\n{df_isnull}")
print(f"-" * 20)
df_isnull = df[df["最低报价"].isnull()]
print(f"查找最低报价为 nan 的行:\n{df_isnull}")

### 3.3.2 删除缺失数据

In [None]:
from pandas import DataFrame
import numpy as np

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC"],
    "最低报价": [np.nan, 9.80, 20.00],
    "最高报价": [49.80, np.nan, 58.78],
}
df = DataFrame(data, index=[1, 2, 3])
print(f"original data:\n{df}")
print(f"-"*20)
df_nonull = df.dropna()
print(f"剔除 nan 值所在的行:\n{df_nonull}")
print(f"-"*20)
df_nonull = df.dropna(axis=1)
print(f"剔除 nan 值所在的列:\n{df_nonull}")

### 3.3.3 填充缺失数据

In [None]:
from pandas import DataFrame
import numpy as np

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC"],
    "最低报价": [np.nan, 9.80, np.nan],
    "最高报价": [49.80, 23.10, np.nan],
}
goods_in = DataFrame(data, index=[1, 2, 3])
goods_in_nonull = goods_in.fillna(999.99)
print(f"统一填充后的数据:\n{goods_in_nonull}")
print(f"-" * 20)
goods_in_fill = goods_in.fillna({"最低报价": 0.00, "最高报价": 999.99})
print(f"按列分别填充后的数据:\n{goods_in_fill}")

### 3.3.4 移除重复数据
查找重复数据，行中有重复元素的显示为 True，否则显示为 False。  
可根据以上查找结果删除重复项，默认保留第一个出现的项，参数 keep="last" 则保留最后一个出现的项。

In [None]:
from pandas import DataFrame

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC", "奥迪Q5L", "哈弗H6"],
    "最低报价": [9.80, 14.35, 15.42, 9.80, 14.35],
    "最高报价": [49.80, 23.10, 60.45, 49.80, 23.10],
}
df = DataFrame(data)
print(f"原始数据:\n{df}")
print(f"-" * 20)
dfDuplicated = df.duplicated()
print(f"判断是否有重复数据:\n{dfDuplicated}")
print(f"-" * 20)
dfDropDuplicated = df.drop_duplicates(keep="last")
print(f"删除重复数据:\n{dfDropDuplicated}")

### 3.3.5 替换数据

In [None]:
from pandas import DataFrame
import numpy as np

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC", "奥迪Q5L", "哈弗H6"],
    "最低报价": [9.80, 14.35, 15.42, 9.80, np.nan],
    "最高报价": [49.80, 23.10, np.nan, 49.80, 23.10],
}
df = DataFrame(data)
print(f"原始数据:\n{df}")
print(f"-" * 20)
dfReplaced = df.replace({np.nan: "无报价", 9.80: 88.88})
print(f"替换后的数据:\n{dfReplaced}")

### 3.3.6 排列和随机采样
从 dataFrame 提取行(随机排列)。  
随机提取后采样。

In [None]:
from pandas import DataFrame
import numpy as np

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC", "奥迪Q5L", "哈弗H6"],
    "最低报价": [9.80, 14.35, 15.42, 9.80, 14.35],
    "最高报价": [49.80, 23.10, 60.45, 49.80, 23.10],
}
df = DataFrame(data, index=["A", "B", "C", "D", "E"])
print(f"原始数据:\n{df}")
print(f"-" * 20)
dfPermutated = np.random.permutation(df)
print(f"随机排列后的数据:\n{dfPermutated}")
print(f"-" * 20)
dfPermutated1 = df.take(np.random.permutation(len(df)))
print(f"随机排列后的数据:\n{dfPermutated1}")
print(f"-" * 20)
dfPermutated2 = df.take(np.random.permutation(2))
print(f"随机排列后仅采样2行数据:\n{dfPermutated2}")


## 3.4 方法的应用与映射
以将数据归一化为例。

In [None]:
from pandas import DataFrame

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC"],
    "最低报价": [38.78, 9.80, 39.48],
    "最高报价": [49.80, 14.10, 58.78],
}
df = DataFrame(data, index=["A", "B", "C"])
print(f"原始数据:\n{df}")
print(f"-" * 20)
f = lambda x: (x - x.min()) / (x.max() - x.min())
df[["最低报价", "最高报价"]] = df[["最低报价", "最高报价"]].apply(f)
print(f"报价归一化:\n{df}")

### 3.4.1 排序和排名
可按 index 或列的数据进行排序。

In [None]:
from pandas import DataFrame

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC"],
    "最低报价": [38.78, 9.80, 39.48],
    "最高报价": [49.80, 14.10, 58.78],
}
df = DataFrame(data, index=["L车", "K车", "D车"])
print(f"原始数据：\n{df}")
print(f"-" * 20)
df = df.sort_index()
print(f"按车名排序后的数据：\n{df}")
print(f"-" * 20)
df = df.sort_values(by="最高报价", ascending=False)
print(f"按最高报价排序后的数据：\n{df}")
print(f"-" * 20)
df = df.rank(method="min", ascending=False)
print(f"按最高报价排名后的数据：\n{df}")

### 3.4.2 带有重复值的轴索引

In [None]:
from pandas import DataFrame

data = {
    "车名": ["奥迪Q5L", "哈弗H6", "奔驰GLC", "奔驰GLC", "奥迪Q5L"],
    "最低报价": [38.78, 9.80, 39.48, 39.48, 38.78],
    "最高报价": [49.80, 14.10, 58.78, 58.78, 49.80],
}
df = DataFrame(data, index=["一辆车", "某辆车", "一辆车", "又一辆车", "一辆车"])
print(f"原始数据:\n{df}")
dfIsUnique = df.index.is_unique
print(f"是否唯一索引: {dfIsUnique}")
dfUnique = df.index.unique()
print(f"去重后的索引: {dfUnique}")

### 3.4.3 汇总和计算描述统计

In [None]:
from pandas import DataFrame
import numpy as np

data ={"地址":["北京市","大兴区","黄村镇","卫星城"], "购物车内每件商品价格":[38.78,9.80,np.nan,39.48]}
df = DataFrame(data)
print(f"原始数据:\n{df}")
print(f"-"*20)
dfSum = df.sum(axis=0)
print(f"聚合后的数据(默认axis=0，即沿列方向聚合，不计入 nan 值):\n{dfSum}")
print(f"-"*20)
dfSum = df.cumsum(axis=0)
print(f"累计求和后的数据(axis=0):\n{dfSum}")
print(f"-"*20)
dfSum = df.describe()
print(f"描述性统计数据(仅限数值型数据):\n{dfSum}")

### 3.4.4 相关系数和协方差

In [None]:
from pandas import DataFrame
import numpy as np

data = {
    "苹果": [15, 16, 3, 2],
    "橘子": [12, 14, 16, 18],
    "石榴": [11, 8, 7, 1]
}
df = DataFrame(data,index = ["一期", "二期", "三期", "四期"])
print(f"原始数据：\n{df}")
print(f"-"*20)
dfSum = df.cov()
print(f"数据协方差矩阵：\n{dfSum}")
print(f"-"*20)
dfSum = df.corr()
print(f"数据相关系数矩阵：\n{dfSum}")

## 3.5 数据的读取和存储
### 3.5.1 读取文本文件格式的数据
read_csv() 函数可以读取文本文件格式的数据，并将其转换为DataFrame对象；sep 参数指定分隔符，默认是逗号；name 参数指定列名。   
### 3.5.2 将数据写出到文本格式
to_csv() 函数可以将DataFrame对象写入文本文件；sep 参数指定分隔符，默认是逗号；index 参数指定是否输出行索引。

## 3.6 字符串操作
df.str.slice() 函数对字符串切片

## 3.7 合并数据集
### 3.7.1 数据库风格的 DataFrame 合并
merge() 函数可实现两个数据取交集。

In [2]:
import pandas as pd
from pandas import DataFrame

login={"会员Id":[110,111,112,113], "会员名称":["刘一","赵二","薛三","陆四"], "会员密码":["admin","123456","000000","888888"]}
info={"会员Id":[110,111,112,113], "会员地址":["北京朝阳","北京丰台","北京大兴","河北廊坊"], "会员会费":[250,360,470,550]}
login_member=DataFrame(login,index=[1,2,3,4])
print(f"会员登录信息:\n{login_member}")
print(f"-"*20)
member_infor = DataFrame(info,index=[1,2,3,4])
print(f"会员信息:\n{member_infor}")
print(f"-"*20)
member = pd.merge(login_member,member_infor,on="会员Id")
print(f"merge合并后的数据:\n{member}")

会员登录信息:
   会员Id 会员名称    会员密码
1   110   刘一   admin
2   111   赵二  123456
3   112   薛三  000000
4   113   陆四  888888
--------------------
会员信息:
   会员Id  会员地址  会员会费
1   110  北京朝阳   250
2   111  北京丰台   360
3   112  北京大兴   470
4   113  河北廊坊   550
--------------------
合并后的数据:
   会员Id 会员名称    会员密码  会员地址  会员会费
0   110   刘一   admin  北京朝阳   250
1   111   赵二  123456  北京丰台   360
2   112   薛三  000000  北京大兴   470
3   113   陆四  888888  河北廊坊   550


### 3.7.2 索引上的合并

In [3]:
import pandas as pd
from pandas import DataFrame
login={"会员名称":["刘一","赵二","薛三","陆四"], "会员密码":["admin","123456","000000","888888"]}
info={"会员地址":["北京朝阳","北京丰台","北京大兴","河北廊坊"], "会员会费":[250,360,470,550]} 
ogin_member=DataFrame(login,index=[1,2,3,5])
print(f"会员登录信息：\n{login_member}")
print(f"-"*20)
member_info=DataFrame(info,index=[1,2,3,4])
print(f"会员信息：\n{member_info}")
print(f"-"*20)
member=login_member.join(member_info)
print(f"join按索引合并后的数据：\n{member}")

会员登录信息：
   会员Id 会员名称    会员密码
1   110   刘一   admin
2   111   赵二  123456
3   112   薛三  000000
4   113   陆四  888888
--------------------
会员信息：
   会员地址  会员会费
1  北京朝阳   250
2  北京丰台   360
3  北京大兴   470
4  河北廊坊   550
--------------------
join合并后的数据：
   会员Id 会员名称    会员密码  会员地址  会员会费
1   110   刘一   admin  北京朝阳   250
2   111   赵二  123456  北京丰台   360
3   112   薛三  000000  北京大兴   470
4   113   陆四  888888  河北廊坊   550
