In [9]:
print("""
@File         : combining_pandas_objects.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2024-03-10 20:38:46
@Email        : cuixuanstephen@gmail.com
@Description  : 组合 pandas 对象
""")


@File         : combining_pandas_objects.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2024-03-10 20:38:46
@Email        : cuixuanstephen@gmail.com
@Description  : 组合 pandas 对象



## 组合 pandas 对象

In [10]:
import pandas as pd
import numpy as np

names = pd.read_csv('../data/names.csv')
names

Unnamed: 0,Name,Age
0,Cornelia,70
1,Abbas,69
2,Penelope,4
3,Niko,2


In [11]:
new_data_list = ['Aria', 1]
names.loc[4] = new_data_list
names

Unnamed: 0,Name,Age
0,Cornelia,70
1,Abbas,69
2,Penelope,4
3,Niko,2
4,Aria,1


In [12]:
names.loc['five'] = ['Zach', 3]
names

Unnamed: 0,Name,Age
0,Cornelia,70
1,Abbas,69
2,Penelope,4
3,Niko,2
4,Aria,1
five,Zach,3


In [13]:
names.loc[len(names)] = {'Name': 'Zayd', 'Age': 2}
names

Unnamed: 0,Name,Age
0,Cornelia,70
1,Abbas,69
2,Penelope,4
3,Niko,2
4,Aria,1
five,Zach,3
6,Zayd,2


In [14]:
names.loc[len(names)] = pd.Series({'Age': 32, 'Name': 'Dean'})
names

Unnamed: 0,Name,Age
0,Cornelia,70
1,Abbas,69
2,Penelope,4
3,Niko,2
4,Aria,1
five,Zach,3
6,Zayd,2
7,Dean,32


In [15]:
names = pd.read_csv('../data/names.csv')
names.append({'Name': 'Aria', 'Age': 1})

  names.append({'Name': 'Aria', 'Age': 1})


TypeError: Can only append a dict if ignore_index=True

In [16]:
names.append({'Name': 'Aria', 'Age': 1}, ignore_index=True)

  names.append({'Name': 'Aria', 'Age': 1}, ignore_index=True)


Unnamed: 0,Name,Age
0,Cornelia,70
1,Abbas,69
2,Penelope,4
3,Niko,2
4,Aria,1


这是可行的，但 `ignore_index` 是一个有副作用的参数。 当设置为 `True` 时，旧索引将被完全删除并替换为从 `0` 到 `n-1` 的 `RangeIndex`。

让我们使用 `.append` 方法附加一个具有 name 属性的 Series：

In [17]:
names.index = ['Canada', 'Canada', 'USA', 'USA']
s = pd.Series({'Name': 'Zach', 'Age': 3}, name=len(names))
names.append(s)

  names.append(s)


Unnamed: 0,Name,Age
Canada,Cornelia,70
Canada,Abbas,69
USA,Penelope,4
USA,Niko,2
4,Zach,3


`.append` 方法比 `.loc` 属性更灵活。它支持同时追加多行。实现此目的的一种方法是传递 Series 列表：

In [18]:
s1 = pd.Series({'Name': 'Zach', 'Age': 3}, name=len(names))
s2 = pd.Series({'Name': 'Zayd', 'Age': 2}, name='USA')

names.append([s1, s2])

  names.append([s1, s2])


Unnamed: 0,Name,Age
Canada,Cornelia,70
Canada,Abbas,69
USA,Penelope,4
USA,Niko,2
4,Zach,3
USA,Zayd,2


可以看到，这里的字段名都是我们自动手动在字典中输入的，这对于仅有两个字段的小数据集没什么关系。但是一旦数据集的字典增加，这将非常糟糕。

In [19]:
bball_16 = pd.read_csv('../data/baseball16.csv')
assert bball_16.shape == (16, 22)

该数据集包含 22 列，如果您手动输入新的数据行，很容易输错列名或完全忘记列名。为了帮助防止这些错误，让我们选择一行作为 Series 并将 `.to_dict` 方法链接到它以获取全部的字段名与值：

In [20]:
data_dict = bball_16.iloc[0].to_dict()
data_dict

{'playerID': 'altuvjo01',
 'yearID': 2016,
 'stint': 1,
 'teamID': 'HOU',
 'lgID': 'AL',
 'G': 161,
 'AB': 640,
 'R': 108,
 'H': 216,
 '2B': 42,
 '3B': 5,
 'HR': 24,
 'RBI': 96.0,
 'SB': 30.0,
 'CS': 10.0,
 'BB': 60,
 'SO': 70.0,
 'IBB': 11.0,
 'HBP': 7.0,
 'SH': 3.0,
 'SF': 7.0,
 'GIDP': 15.0}

使用字典理解清除旧值，将任何先前的字符串值指定为空字符串，将所有其他值指定为缺失值。该字典现在可以用作您想要输入的任何新数据的模板：

In [21]:
new_data_dict = {k: '' if isinstance(v, str) else np.nan for k, v in data_dict.items()}
new_data_dict

## 将多个 DataFrame 连接在一起