In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [3]:
#重建索引
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [3]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

对该Series调用reindex将会根据新索引进行重新排序。
如果某个值不存在则会出现缺失值
对于缺失值，一般我们要进行插填或填值处理。
method选项可以达到此目的，比如使用ffill可以实现向前充值：

In [4]:
obj3 = pd.Series(["bule", "purple", "yellow"], index=[0, 2, 4])
obj3

0      bule
2    purple
4    yellow
dtype: object

In [5]:
obj3.reindex(np.arange(6), method="ffill")

0      bule
1      bule
2    purple
3    purple
4    yellow
5    yellow
dtype: object

借助DataFrame, reindex可以修改（行）索引、列，也可以同时修改。
只传入一个序列时，会重建索引中的行：

In [6]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"],
                     columns=["Ohio", "Texas", "California"])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [7]:
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [8]:
#用columns关键字重建索引：
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


"Ohio"不在states中，所以这一列被删除。
另一种重建索引的方法是传入新的轴标签作为位置参数，然后用axis关键字对指定轴进行重建索引：

In [9]:
frame.reindex(states, axis="columns")

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


frame.reindex(states, axis="columns")
用于重新排列或过滤 DataFrame 的列（或行），以匹配指定的索引或列名顺序。
这个方法可以用于 DataFrame 的列（axis="columns")或行（axis="index"）。

重新排列列或行：根据指定顺序重新排列 DataFrame 中的列或行。
添加缺失的列或行：如果指定的列或行在原始 DataFrame 中不存在，会被添加且值为缺失值（NaN）。
保持 DataFrame 的一致性：当你需要多个 DataFrame 有相同的列或行顺序时，使用 reindex 很有用。

![jupyter](./5.4.png)

In [10]:
#还可以用loc运算符重建索引，这是最常用的方法，只有在新索引DF中已经存在时，才能这么做
#否则 reindex 会给新标签插入缺失值
frame.loc[["a", "d", "c"], ["California", "Texas"]]

Unnamed: 0,California,Texas
a,2,1
d,8,7
c,5,4


In [None]:
frame.loc[["a", "d", "c", "e"], ["California", "Texas"]]
这种写法是错误的，因为loc不能直接创建索引，所以有多的索引进来后会报错TypeError

In [12]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [None]:
frame.loc[["a", "d", "c"], ["California", "Texas"]]
只是创建了一个数据视图，并不会影响原始的DF中的数据，操作返回的是一个新的DF，
如果对某个对象赋值，则会变化，比如：
frame.loc[["a", "d", "c"], ["California", "Texas"]] = some_value
只是想显示特定行列，可以使用 loc 来提取数据，不会改变原始数据

In [14]:
#删除指定轴上的项
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [15]:
new_obj = obj.drop("c")
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [16]:
obj.drop(["d", "c"])

a    0.0
b    1.0
e    4.0
dtype: float64

删除某条轴上的一个或多个项只要有一个索引数组或不包含这些项的列表，就可以使用reindex方法或基于.loc的索引进行删除。
由于需要执行一些数据整理和集合逻辑操作，因此drop方法返回的是一个在指定轴上删除了指定值的新对象。

对于DF，可以删除任意轴上的索引值，先创建一个DF实例

In [17]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [18]:
#用标签序列调用drop会从行标签（axis=0）删除值
data.drop(index=["Colorado", "Ohio"])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


这里是drop(index=["Colorado", "Ohio"])，传入指定行 index 进行删除
drop 默认从行标签中删除指定的标签（axis=0）行删除。
可以通过设置 axis=1 从列标签中删除指定的标签。
使用 inplace=True 可以直接修改原 DataFrame，而不是创建新的 DataFrame

In [20]:
#通过传入指定列 columns 删除指定列标签
data.drop(columns=["two"])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [21]:
#可以传入 axis=0 或 axis=1 进行行、列删除
data.drop("two", axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [22]:
data.drop(["two", "four"], axis="columns")

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [23]:
#索引、选取和过滤
#Series索引(obj[...])的工作方式类似于Numpy数组的索引，只不过Series的索引值可以不仅仅是整数。
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [24]:
obj["b"]

1.0

In [25]:
obj[1]

  obj[1]


1.0

这个警告是 Pandas 将来会改变 Series.__getitem__ 的行为。
当使用整数索引来访问 Series 对象时，当前版本的 Pandas 允许你通过位置（position）访问值，
但在未来的版本中，这种方式将被弃用，并且整数将总是被视为标签（labels）。

In [26]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [27]:
obj[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

In [28]:
obj[[1, 3]]

  obj[[1, 3]]


b    1.0
d    3.0
dtype: float64

In [29]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

即，在DF中搜索时，可以不仅仅只搜索index，也可以是后面的数值，上述写法可以用来选取数据，
但有更可靠的方法，利用loc运算符选取索引值：

In [30]:
obj.loc[["b", "a", "d"]]

b    1.0
a    0.0
d    3.0
dtype: float64

loc方式更可取，因为用[]进行索引时，针对整数的处理有所不同。
如果索引包含整数，常规的基于[]的索引会将整数用作标签，因此索引的选取取决于数据类型。
如下：

In [32]:
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])
print(obj1)
print(obj2)

2    1
0    2
1    3
dtype: int64
a    1
b    2
c    3
dtype: int64


In [33]:
obj1[[0, 1, 2]]

0    2
1    3
2    1
dtype: int64

In [34]:
obj2[[0, 1, 2]]

  obj2[[0, 1, 2]]


a    1
b    2
c    3
dtype: int64

In [None]:
这个警告信息表明，未来版本的 Pandas 中 Series.__getitem__ 方法将不再支持通过整数键来访问位置对应的值。
相反，整数键将始终被视为标签。如果你想根据位置访问 Series 中的值，应该使用 ser.iloc[pos]。

obj2[[0, 1, 2]]是想要通过位置去访问DF，与obj1不同，obj1的索引是整数，obj2的索引是串，
所以jp判断他为按照位置访问并抛出异常。未来将会不支持直接通过整数键访问位置对应值

什么是键什么是值？
在 Pandas 的 Series 对象中，“键”和“值”分别对应于索引和数据：
	1.键（Key）: 在 Series 中，键通常是指索引（Index），它可以是整数、字符串或其他类型的标识符，用来定位和访问 Series 中的数据。
	2.值（Value）: 值是 Series 中与每个键（索引）关联的数据项。它们构成了 Series 中的实际数据内容。
比如：
obj2 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
	•键: 'a', 'b', 'c' 是索引，它们是键。
	•值: 10, 20, 30 是与这些键关联的值

obj2['a'] 根据键 'a' 获取值 10。

obj2.iloc[0] 根据位置索引 0 获取对应的值 10。

Pandas 的未来版本中，Series 将要求更加明确区分这两者，
因此需要用 iloc 来根据位置访问值，而直接用方括号（[]）时是根据键（索引）来访问。

In [None]:
obj2.loc[[0, 1]]

In [None]:
使用loc时如果索引中不含整数，则表达式obj.loc[[0, 1, 2]]会报错
与loc不同，iloc运算符只使用用整数，loc运算符只使用标签，无论索引是否包含整数，都能使用iloc：

In [38]:
obj1.iloc[[0, 1, 2]]

2    1
0    2
1    3
dtype: int64

obj1.iloc[[0, 1, 2]] 是基于行的位置（即行号）来选择和输出的，而不是基于行的索引值。
iloc 是专门用来按位置索引的，无论行的索引值是什么，iloc 都只会根据指定的位置进行提取。
所以其中的0，1，2其实是位置，而不是索引

In [39]:
obj2.iloc[[0, 1, 2]]

a    1
b    2
c    3
dtype: int64

可以用标签(索引index)进行切片，与py不同的是，loc切片是包含末端的，即[a:b]a行到b行包含a、b行

In [40]:
obj2.loc["b":"c"]

b    2
c    3
dtype: int64

切片方法还可以对Series相应部分进行赋值：

In [41]:
obj2.loc["b":"c"] = 5
obj2

a    1
b    5
c    5
dtype: int64

loc 和 iloc 非函数，而是方括号索引，方括号不仅可以切片索引，还可以对DF多个轴进行索引，
使用单个值或序列对DF进行索引，以获取单列或多列：

In [5]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [43]:
data["two"]

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [46]:
data["Ohio"]

KeyError: 'Ohio'

In [None]:
data["Ohio"]会报错，因为只能对列操作，而没有"Ohio"这一列，所以会报错，
data要输出列或进行列切片，需要用loc或iloc进行操作，
data.iloc[:, 1:3]  # 选择第 1 到第 2 列（不包括第 3 列）
data.loc[:, 'one':'three']  # 选择从 'one' 到 'three' 的所有列
data.iloc[1:3, 0:2]  # 选择第 1 到第 2 行，第 0 到第 1 列
data.loc['row1':'row3', 'col1':'col3']  # 按标签选择指定行和列

In [44]:
data[["three", "one"]]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


方括号即为切片，切多个时要在方括号里再嵌一个方括号，并且这种索引方法有几种特殊用法，
可以通过切片或bool数组选取数据：

In [45]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [50]:
#data[:2]方括号内与py相同，对其进行切片，但只能进行行切片，列切片要用loc或iloc
print(data["three"] > 5)
data[data["three"] > 5]

Ohio        False
Colorado     True
Utah         True
New York     True
Name: three, dtype: bool


Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data[data["three"] > 5]
是通过bool序列操作，three列大于5的都为true,然后为True的组成一个新的DF打印出来，
保留行数据

In [51]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [10]:
#将DF内值小于5的都改为0
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [11]:
#利用loc和iloc选取DF
#loc标签索引，iloc整数索引(位置索引)
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [65]:
#loc默认行选取，索引选取，列选取要切片
print(data.loc["Colorado"])
print(data.iloc[1])

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int64
one      0
two      5
three    6
four     7
Name: Colorado, dtype: int64


In [12]:
#iloc是位置索引，默认行选取，列选取要切片
data.iloc[1]

one      0
two      5
three    6
four     7
Name: Colorado, dtype: int64

In [13]:
#多行选取
print(data.loc[["Colorado", "New York"]])
data.iloc[[1, 2]]

          one  two  three  four
Colorado    0    5      6     7
New York   12   13     14    15


Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11


In [14]:
#loc同时选取行、列
print(data.loc["Colorado",["two", "three"]])
data.iloc[[1], [1, 2]]

two      5
three    6
Name: Colorado, dtype: int64


Unnamed: 0,two,three
Colorado,5,6


In [15]:
#[3, 0 ,1]代表了第三列，第一列，第二列，而不是py中的 3 到 0，step为1
data.iloc[[1], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5


In [16]:
data.loc[:"Utah", "two"]

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [None]:
data.loc[:"Utah", "two"]
逗号前面是行选取，选取从第一行开始直到"Utah"行停止，
逗号后是列选取，即选取"two"列

In [17]:
data.iloc[:, :3]     #选取所有行，前四列下标 0～3 列,是三列不是四列

Unnamed: 0,one,two,three
Ohio,0,0,0
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [18]:
data.iloc[: , :3][data.three > 5]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


此段代码选取所有行，前三列，并且令第三列值大于5的设置为True，最后DF只输出True的行

loc可以用bool型数组，但iloc不能使用

In [20]:
data.loc[data.three >= 2]      #第三列大于等于 2 的设置为True，DF输出True的行

Unnamed: 0,one,two,three,four
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


多种方式可以选取和重排pandas中的数据。
对于DF的数据选取方法，索引选项操作有很多

![jupyter](./5.5.png)

整数索引中的陷阱
处理整数索引的pandas对象与py内置数据结构不同，比如列表和元组。
例如下面的代码你不认为会出错：

In [22]:
ser = pd.Series(np.arange(3.))
ser

0    0.0
1    1.0
2    2.0
dtype: float64

In [23]:
ser[-1]

KeyError: -1

按照py的意思看，应该返回最后一个索引的值，
但程序不知道是位置索引还是寻找索引为整数 -1 的值，
最后没有这个索引，所以报了keyError: -1，键错误。
对于非整数索引，则不会报错，不会产生歧义：

In [24]:
ser2 = pd.Series(np.arange(3.), index=["a", "b", "c"])
ser2[-1]

  ser2[-1]


2.0

但是还是会提示不要直接通过直接在方括号填写整数去充当位置索引，需要调用iloc，
如果轴索引含有整数最稳妥的方法就是loc和iloc，为了避免错误最好用iloc和loc

In [25]:
ser.iloc[-1]

2.0

In [26]:
#但切片总是基于整数索引
ser[:2]

0    0.0
1    1.0
dtype: float64

In [28]:
#链式索引中的陷阱
#通过标签或整数索引对行或列赋值
#对”one“ 列赋值 1
data.loc[:, "one"] = 1
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,1,9,10,11
New York,1,13,14,15


In [29]:
#对第三行赋值 5
data.iloc[2] = 5
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,1,5,6,7
Utah,5,5,5,5
New York,1,13,14,15


In [31]:
#对 four 列大于5的都赋值为3
data.loc[data["four"] > 5] = 3
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


In [33]:
#赋值时进行链式选取
data.loc[data.three == 5]["three"] = 6
data

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[data.three == 5]["three"] = 6


Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,5,5
New York,3,3,3,3


In [None]:
这段代码想要对第“three”列中所有值为 5 的数赋值为 6，但报错ettingWithCopyWarning: 
因为data.loc[data.three == 5]是选取three列中值为5的行，是一个视图，而不是DF，
所以后面对其赋值的操作是对临时视图做赋值，并不是对DF操作，所以会报错，并且data没有被修改

对于此类，必须要重写链路赋值使用单独的loc操作：

In [35]:
data.loc[data.three == 5, "three"] = 6
data

Unnamed: 0,one,two,three,four
Ohio,1,0,0,0
Colorado,3,3,3,3
Utah,5,5,6,5
New York,3,3,3,3


因此，在赋值时首要原则是避免链式索引。

5.2.4 算数运算和数据对齐
pandas处理不同的索引要简单，
例如：当对象相加时，如果存在不同的索引对，则结果中是所有索引的并集。

In [4]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=["a", "c", "e", "f", "g"])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [5]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [6]:
#将它们相加：
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [None]:
对于不重复叠的标签，内部数据对齐会导入缺失值，缺失值会在运算中传播。
对于DF，对齐操作会同时发生在行和列上：

In [7]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [8]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [9]:
#两个DF相加后会返回一个新的DF，索引为原来两个DF的并集：
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [None]:
在 df1 + df2 操作后，结果的排序是按索引和列标签的 并集 进行排序的。具体来说：
1.行索引：首先是将 df1 和 df2 的行索引取并集，然后按字母顺序排序，因此结果中的行索引是 ['Colorado', 'Ohio', 'Oregon', 'Texas', 'Utah']。
2.列索引：列索引也是按 df1 和 df2 的列标签取并集后，按字母顺序排序。因此结果中的列索引是 ['b', 'c', 'd', 'e']。

在对数据框进行加法操作时，如果某个位置上两个数据框都有对应值，就执行相加操作；
如果某个位置只有一个数据框有值，则将另一个数据框中对应位置的值视为 NaN，相加的结果也是 NaN。
这个排序的逻辑适用于所有类似的对齐操作（例如加法、减法、乘法等）。

当然，如果将没有共同列或行标签的DF对象相加，结果将全为空：
没有重复列或行，直接会去并集并赋为空

In [10]:
df1 = pd.DataFrame({"A": [1, 2]})
df2 = pd.DataFrame({"B": [3, 4]})
df1

Unnamed: 0,A
0,1
1,2


In [11]:
df2

Unnamed: 0,B
0,3
1,4


In [12]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


In [13]:
#带有填充值的算术方法：
#对不同索引的对象进行算数运算时，当一个坐标轴索引不在另一个另一个坐标轴的索引时，填充一个特殊值，
#使用np.nan赋值为NA，不让它为空。
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [14]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [17]:
df2.loc[1, "b"] = np.nan    #“b”列第“1”行的那个值设置为NA
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df2.loc[1, "b"] = np.nan 这个操作是基于 索引 来进行的。
也就是说，它会在索引为 1 的那一行，列名为 "b" 的位置上赋值为 NaN。
loc 是基于标签（包括索引和列名）来定位的，而不是位置。

In [18]:
#将它们相加时，没有重叠的位置就会产生NA值：
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


df1 没有 e 列，df2 没有索引为 3 的行，所以都是NA

In [19]:
#使用 df1 的 add 方法，传入 df2 以及一个fill_value的参数，
#用传入值替换运算中的缺失值：
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,5.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1.add(df2, fill_value=0) 允许你在进行两个 DataFrame 的逐元素相加时，
用 0 替换掉 NaN 来进行计算，避免因为 NaN 而得到结果中的 NaN。
也是就是计算df1 + df2 但填补了空缺值。

df1 + df2 只是简单地逐元素相加，不会处理 NaN，结果中如果任意一个元素是 NaN，那么结果也是 NaN。
df1.add(df2, fill_value=0) 提供了额外的功能，可以在相加之前用 fill_value 替换 NaN，从而得到更完整的结果。

In [23]:
#DF 和 Series的除法
1 / df1

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [24]:
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


这两个语句是等价的，都是1 / df1 中的所有元素，df
df1.rsub(1),代表用 1 - df1 中的每一个元素
df1.radd(1),代表df1 中的每一个元素都加 1
df1.floordiv(df2)代表df1整除df2，
df1.rfloordiv(df2)代表反向整数，df2整除df1，
整除就是df1 // df2 ，例如：15 // 4 值为 3，只取整，不留余

![jupyter](./5.6.png)

In [28]:
#对于Series和 DF重建索引时，也可以指定不同的填充值：
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


In [29]:
#DF 和 Series 之间的运算：需要遵守一定的规则
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [30]:
arr[0]

array([0., 1., 2., 3.])

In [32]:
#一个二维数组与某一行的差
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [None]:
arr - arr[0] 这个操作是 NumPy 中的广播操作，它将 arr 的每一行减去第一行 arr[0]。

广播机制: NumPy 的广播机制允许不同形状的数组在算术操作中能够以智能的方式进行扩展。
    这里，arr[0] 的形状 (4,) ，形状 (4,) 表示一个一维数组，包含 4 个元素。
    被广播到整个数组 arr 的形状 (3, 4)，从而实现逐元素的减法操作。
应用场景: 这种操作常用于数据的标准化或归一化处理。
例如，将每一行都减去第一行可以用来移除某些基准值。

In [3]:
#DF和Series也是一样的：
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]
print("series:\n",series)
frame

series:
 b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64


Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [4]:
#默认情况下，DF 和 Series 之间的算术运算会将 Series 的索引匹配到DF 的列，然后向下一直广播：
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [None]:
在 Pandas 中，Series 的索引是用来标识数据的标签，但它不影响 Series 的维度。
无论是否有索引，Series 都是一维的数据结构。

即第一行减去第一行的[0, 1, 2]后变为[0, 0, 0]
开始广播：第二行减去第一行的[0, 1, 2]变为[0, 3, 3]
        第三行减去第一行的[0, 1, 2]变为[6, 6, 6]
        第四行减去第一行的[0, 1, 2]变为[9, 9, 9]

如果某个索引值在DF的列或Series的索引中找不到，则参与的两个对象就会重建索引以形成并集：

In [5]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2

b    0
e    1
f    2
dtype: int64

In [6]:
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [7]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [None]:
在 Pandas 中，Series 的索引是用来标识数据的标签，但它不影响 Series 的维度。
无论是否有索引，Series 都是一维的数据结构。

DF 和 Series 的算术操作，优先以 DF 为基准，frame 的列在前，
在 frame + series2 的操作中，result 中的列顺序主要是 frame 的列在前，
series2 的列（如果在 frame 中不存在）会被添加到 result 的最后，最后以并集的方式输出。

即：先由frame确定要输出的DF形状，因为frame没有f列，所以一整列直接就是NA值
其余的就是 b 列和 e 列与 frame 相加，[0, Na, 2, Na] + [0, Na, 1, 2] = [0, Na, 3, Na],
分别对应 b、d、e、c,由广播机制其余的各行也是如此。

In [29]:
#如果想在列上广播且匹配行，则必须使用算术运算方法并指定匹配索引，如：
series3 = frame["d"]
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [30]:
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [31]:
frame.sub(series3, axis="index")

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


In [None]:
sub()函数是减，就是用frame DF 减去series3，且series3是第“d”列，也就是用其余列减去“d”列的值，
就比如第一列 b，[0, 3, 6, 9] - [1, 4, 7, 10] = [-1, -1, -1, -1]，
由于广播性质，后面的每一列都会与 d 列做差， frame 的 d 列与series3 做差全为 0，e列做差全为 1

传入的axis=“index”就是用于匹配的轴，这里就是用 DF 的行索引 index 去进行列广播

In [2]:
#函数应用和映射
#np的通用函数也可以操作pd对象：
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
frame

Unnamed: 0,b,d,e
Utah,-0.592203,-0.135389,0.316163
Ohio,0.026273,0.283388,2.245468
Texas,-0.642608,0.284337,-1.606869
Oregon,-1.174337,1.117145,1.273347


In [3]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.592203,0.135389,0.316163
Ohio,0.026273,0.283388,2.245468
Texas,0.642608,0.284337,1.606869
Oregon,1.174337,1.117145,1.273347


In [5]:
#另一种常见的操作是将函数应用到各列各行所形成的一维数组上。DF 的 apply可以实现此功能
def f1(x):
    return x.max() - x.min()

frame.apply(f1）    #列操作，最后返回的是一个Series，frame的列作为索引

b    1.200610
d    1.252534
e    3.852337
dtype: float64

In [None]:
1.	函数 f1:
    这是一个简单的函数，接收一个 pandas.Series（即 DataFrame 的一列或一行）作为输入，并返回该列或行的最大值和最小值之间的差值。
2.	frame.apply(f1):
    apply 函数会将 f1 函数应用到 DataFrame 的每一列或每一行。
    默认情况下，apply 会将函数应用到 DataFrame 的每一列（axis=0），如果你想对每一行应用函数，可以使用 frame.apply(f1, axis=1)。

In [7]:
frame.apply(f1, axis=1)    #行操作，每一行的最大值减最小值

Utah      0.908366
Ohio      2.219195
Texas     1.891206
Oregon    2.447684
dtype: float64

In [9]:
#对行操作还可以这样操作：
frame.apply(f1, axis="columns")    #

Utah      0.908366
Ohio      2.219195
Texas     1.891206
Oregon    2.447684
dtype: float64

axis="columns"：
这告诉 apply 函数，你希望函数 f1 应用于 DataFrame 的每一行，而不是每一列。
对于每一行，f1 将接收到一个 pandas.Series 对象，其中包含该行的所有数据。

当 axis=1 或者 axis="columns" 时，apply 函数会沿着列的方向移动，这意味着它会取出每一行的数据，然后将函数应用于这整行。

它是“横向”操作，因此需要处理每一行的数据。虽然参数名称是 columns，但它是针对行的操作，因为你在列之间“移动”。

pandas的 axis 操作比平时的操作容易混淆，但这就是pandas的约定

In [11]:
#许多最为常见的数组统计功能（sum、mean）都是DF的方法，因此无需使用apply方法。
#且传递到apply的函数不一定返回单个标量值，还可以反回由多个值组成的Series：
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])

frame.apply(f2)

Unnamed: 0,b,d,e
min,-1.174337,-0.135389,-1.606869
max,0.026273,1.117145,2.245468


In [None]:
函数 f2
输入: f2 接收一个 pandas.Series 对象，即 DataFrame 的一列（或一行，取决于 apply 的 axis 参数）。
输出: f2 返回一个新的 pandas.Series，其中包含两个元素：该列或行的最小值 (min) 和最大值 (max)。索引被设置为 "min" 和 "max"。

frame.apply(f2)
当使用 apply(f2) 时，f2 函数会被应用到 DataFrame 的每一列，因为 axis=0 是 apply 函数的默认值。
这意味着 f2 会对 DataFrame 的每一列执行最小值和最大值的计算。

In [12]:
#还可以使用元素级的py函数，如frame中的各个浮点值的格式化字符串，使用applymap：
def my_format(x):
    return f"{x:.2f}"

frame.applymap(my_format)

  frame.applymap(my_format)


Unnamed: 0,b,d,e
Utah,-0.59,-0.14,0.32
Ohio,0.03,0.28,2.25
Texas,-0.64,0.28,-1.61
Oregon,-1.17,1.12,1.27


In [None]:
applymap 是 pandas 提供的方法，用于将一个函数应用到 DataFrame 中的每一个元素。
与 apply 和 applymap 不同的是，applymap 作用于 DataFrame 的每一个单独元素，而不是整列或整行。

输入: my_format 接收一个单独的值 x，通常是 DataFrame 中的每一个元素。
输出: 该函数返回一个格式化后的字符串，保留两位小数（"{x:.2f}" 表示将数字格式化为小数点后两位的字符串）。

"{x:.2f}"是接受之前从 DF 中的每一个值，格式化为保留小数点后两位并输出。

In [13]:
#之所以叫applymap，是因为Series有一个用于元素级函数的 map 方法：
frame["e"].map(my_format)

Utah       0.32
Ohio       2.25
Texas     -1.61
Oregon     1.27
Name: e, dtype: object

In [None]:
map 方法 用于将函数或映射规则应用到 Series 的每一个元素上。

map 方法用于对 Series 对象的每一个元素应用一个函数或替换规则。
具体来说，当你使用 frame["e"].map(my_format) 时，
map 方法会对 frame["e"] 这一列的每一个元素应用 my_format 函数，
并返回一个新的 Series，其中的元素已经按照 my_format 函数进行了处理。

map 会将 my_format 函数应用于 frame["e"] 列的每一个元素，从而得到一个保留两位小数的字符串格式的结果。

map 的作用：
输入: map 方法接收一个函数或一个映射规则（如字典、Series 等）。
输出: 返回一个新的 Series，其中每个元素都已经通过提供的函数或规则进行了转换。

比如用字典做映射规则：
gender_map = {"M": "Male", "F": "Female"}
df["gender"] = df["gender"].map(gender_map)

这会将 M 替换为 "Male"，将 F 替换为 "Female"。