In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('物流数据.csv')

In [3]:
df['货运公司名称'].isna().value_counts()

False    12106
Name: 货运公司名称, dtype: int64

In [4]:
df['货运公司名称'].value_counts()

德邦物流        4472
顺丰快递        4396
中通速递        2908
百世汇通         146
圆通速递         132
天天速递          25
韵达快递           9
申通快递有限公司       8
盛辉物流           4
佳吉快运有限公司       4
品骏             2
Name: 货运公司名称, dtype: int64

In [5]:
# pd.DataFrame.replace
# 替换整个df，需要完全匹配

In [6]:
df.replace(np.nan, '???')['货物名称']
# df.fillna

0        ???
1        ???
2        ???
3        ???
4        ???
        ... 
12101    印刷品
12102    印刷品
12103    文件;
12104    文件;
12105    印刷品
Name: 货物名称, Length: 12106, dtype: object

In [7]:
# pd.Series.replace
# 需要完全匹配，支持正则，支持根据字典替换多个值

In [8]:
df['货运公司名称'].replace(to_replace='.*?速递.*?', value='sd', regex=True).value_counts()  # 2908+132+25=3065

德邦物流        4472
顺丰快递        4396
sd          3065
百世汇通         146
韵达快递           9
申通快递有限公司       8
盛辉物流           4
佳吉快运有限公司       4
品骏             2
Name: 货运公司名称, dtype: int64

In [9]:
df['货运公司名称'].replace(
    {
        '.*?速递.*?': 'sd',  # 2908+132+25=3065
        '.*?快递.*?': 'kd',  # 4396+9=4405
    }, 
    regex=True
).value_counts()

德邦物流        4472
kd          4405
sd          3065
百世汇通         146
kd有限公司         8
盛辉物流           4
佳吉快运有限公司       4
品骏             2
Name: 货运公司名称, dtype: int64

In [10]:
# pd.Series.str.replace
# 支持部分匹配，支持正则，不支持根据字典替换多个值

In [11]:
df['货运公司名称'].str.replace(pat='快递', repl='kd', regex=True).value_counts()

德邦物流        4472
顺丰kd        4396
中通速递        2908
百世汇通         146
圆通速递         132
天天速递          25
韵达kd           9
申通kd有限公司       8
盛辉物流           4
佳吉快运有限公司       4
品骏             2
Name: 货运公司名称, dtype: int64

In [12]:
df['货运公司名称'].str.replace(pat='.*?快递.*?', repl='kd', regex=True).value_counts()

德邦物流        4472
kd          4405
中通速递        2908
百世汇通         146
圆通速递         132
天天速递          25
kd有限公司         8
盛辉物流           4
佳吉快运有限公司       4
品骏             2
Name: 货运公司名称, dtype: int64

In [13]:
# =
# 赋值，创建新列

In [14]:
df.loc[(df['运单编号'] >= '999000000000') & (df['货物名称'].str.contains('文件') == True), '999货运公司名称'] = '999圆通速递'

In [15]:
print(df[(df['运单编号'] >= '999000000000') & (df['货物名称'] == '文件;')].shape)
print(df[~df['999货运公司名称'].isna()].shape)
df[(df['运单编号'] >= '999000000000') & (df['货物名称'].str.contains('文件') == True)]['999货运公司名称'].value_counts()

(11, 22)
(12, 22)


999圆通速递    12
Name: 999货运公司名称, dtype: int64

In [16]:
# pd.Series.update
# 根据索引使用新的Series更新原Series，左对齐

In [17]:
# pd.Series.map
# 需要完全匹配，不能使用正则，没匹配的会被替换成NaN

In [18]:
df['货运公司名称_map'] = df['货运公司名称'].map(
    {
        '德邦物流': '德邦',
        '顺丰快递': '顺丰',
        '中通速递': '中通',
    }
)

In [19]:
df['货运公司名称_map'].value_counts()

德邦    4472
顺丰    4396
中通    2908
Name: 货运公司名称_map, dtype: int64

In [20]:
df['货运公司名称_map'].isna().value_counts()

False    11776
True       330
Name: 货运公司名称_map, dtype: int64