# 2025 造件数据

In [1]:
import random
import math

import pandas as pd
import numpy as np
from sqlalchemy import create_engine

from tool.func_new import *

## 0. 定义参数 

In [2]:
## OD通用参数
# 文件路径
od_path = r'./file/2025OD_v31.xlsx'

# 始发地，空侧
air_model_list = ['I', 'D', 'INF']

# 始发地，陆侧
land_model_list = ['R']

# 表格完整列名
parcel_col_list = [
    'small_id', 'parcel_id', 'parcel_type', 'src_type', 'dest_type',
    'plate_num', 'uld_num', 'arrive_time', 'send_time', 'plan_disallow_tm',
    'actual_disallow_tm', 'src_apt', 'dest_apt', 'dest_city_code', 'ident_des_zno',
    'plate_priority', 'is_mixture', 'inserted_on', 'modified_on']

# 按照数据库结构，修改对应的列名
db_columns_modify = {'model': 'src_type', 'desc_model': 'dest_type',
                     'Flight_ID': 'plate_num', 'city': 'dest_city_code',
                     'api': 'dest_apt', 'apt': 'src_apt',
                     'landing_time': 'arrive_time'}

In [3]:
# parcel参数，封装为字典
parcel_kwargs = {
    'od_path': od_path,          # od表文件路径
    'sheet_name': 'Parcel pcs',  # 读表表名
    'parse_cols': 'B:YS',        # 读取列范围
    'parse_skip_num': 57,        # 跳过行数
    'cols_split': 5,             # 列索引切片
    'parcel_type': 'parcel',     # 包裹类型
    'air_round_ceil': 0.97,      # 空侧精度控制进位值
    'air_round_floor': 0.01,     # 空侧精度控制置0值
    'land_round_ceil': 0.99,     # 陆侧精度控制进位值
    'land_round_floor': 0.05,    # 陆侧精度控制置0值
    'pkg_n':1,
    'air_model_list': air_model_list,
    'land_model_list': land_model_list,
    'db_columns_modify': db_columns_modify,
    'parcel_col_list': parcel_col_list,
}

In [4]:
# small参数，封装为字典
small_kwargs = {
    'od_path': od_path,             # od表文件路径
    'sheet_name': 'Small bag pcs',  # 读表表名
    'parse_cols': 'B:YS',           # 读取列范围
    'parse_skip_num': 57,           # 跳过行数
    'cols_split': 5,                # 列索引切片
    'parcel_type': 'small',         # 包裹类型
    'air_round_ceil': 0.6,          # 空侧精度控制进位值
    'air_round_floor': 0.01,        # 空侧精度控制置0值
    'land_round_ceil': 0.55,        # 陆侧精度控制进位值
    'land_round_floor': 0.3,        # 陆侧精度控制置0值
    'pkg_n':20,
    'air_model_list': air_model_list,
    'land_model_list': land_model_list,
    'db_columns_modify': db_columns_modify,
    'parcel_col_list': parcel_col_list,
}

In [5]:
# irregular参数，封装为字典
irregular_kwargs = {
    'od_path': od_path,             # od表文件路径
    'sheet_name': 'Irregular pcs',  # 读表表名
    'parse_cols': 'B:YS',           # 读取列范围
    'parse_skip_num': 57,           # 跳过行数
    'cols_split': 5,                # 列索引切片
    'parcel_type': 'irregular',     # 包裹类型
    'air_round_ceil': 0.98,         # 空侧精度控制进位值
    'air_round_floor': 0.2,         # 空侧精度控制置0值
    'land_round_ceil': 0.99,        # 陆侧精度控制进位值
    'land_round_floor': 0.27,       # 陆侧精度控制置0值
    'pkg_n':1,
    'air_model_list': air_model_list,
    'land_model_list': land_model_list,
    'db_columns_modify': db_columns_modify,
    'parcel_col_list': parcel_col_list,
}

In [6]:
# nc参数，封装为字典
nc_kwargs = {
    'od_path': od_path,          # od表文件路径
    'sheet_name': 'NC pcs',      # 读表表名
    'parse_cols': 'B:YS',        # 读取列范围
    'parse_skip_num': 57,        # 跳过行数
    'cols_split': 5,             # 列索引切片
    'parcel_type': 'nc',         # 包裹类型
    'air_round_ceil': 0.98,      # 空侧精度控制进位值
    'air_round_floor': 0.2,      # 空侧精度控制置0值
    'land_round_ceil': 0.6,      # 陆侧精度控制进位值
    'land_round_floor': 0.08,    # 陆侧精度控制置0值
    'pkg_n':1,
    'air_model_list': air_model_list,
    'land_model_list': land_model_list,
    'db_columns_modify': db_columns_modify,
    'parcel_col_list': parcel_col_list,
}

In [7]:
# isb参数，封装为字典
isb_kwargs = {
    'od_path': od_path,          # od表文件路径
    'sheet_name': 'Mail pcs',    # 读表表名
    'parse_cols': 'B:YS',        # 读取列范围
    'parse_skip_num': 57,        # 跳过行数
    'cols_split': 5,             # 列索引切片
    'parcel_type': 'isb',        # 包裹类型
    'air_round_ceil': 0.5,       # 空侧精度控制进位值
    'air_round_floor': 0.01,     # 空侧精度控制置0值
    'land_round_ceil': 0.5,      # 陆侧精度控制进位值
    'land_round_floor': 0.4,     # 陆侧精度控制置0值
    'pkg_n':100,
    'air_model_list': air_model_list,
    'land_model_list': land_model_list,
    'db_columns_modify': db_columns_modify,
    'parcel_col_list': parcel_col_list,
}

In [8]:
# 新版ULD对照表数据
uld_name = './file/0103ULD_id.xlsx'
uld_sheetname = 'ULD'
uld_parse_cols = 'A:C'

## 1 读取数据，预处理

### 1.1 读取parcel_pcs表

In [9]:
df_parcel_total = parcel_data_convert(**parcel_kwargs)

(135915, 10)
处理之前，邮件总数量为：504526.0
处理之前，包裹总数量为：135915
处理之后，包裹总数量为：504526


In [10]:
df_parcel_total.head(3)

Unnamed: 0,small_id,parcel_id,parcel_type,src_type,dest_type,plate_num,uld_num,arrive_time,send_time,plan_disallow_tm,actual_disallow_tm,src_apt,dest_apt,dest_city_code,ident_des_zno,plate_priority,is_mixture,inserted_on,modified_on
0,,,parcel,D,D,CSS75,,2045-02-08 00:16:27,,,,PVG,PEK,,,,,,
1,,,parcel,D,D,CSS75,,2045-02-08 00:16:27,,,,PVG,PEK,,,,,,
2,,,parcel,D,D,CSS75,,2045-02-08 00:16:27,,,,PVG,PEK,,,,,,


### 1.2 读取smalls bag pcs表

In [11]:
df_small_total = parcel_data_convert(**small_kwargs)

(135915, 10)
处理之前，邮件总数量为：936226.0
处理之前，包裹总数量为：135915
处理之后，包裹总数量为：936226


In [12]:
df_small_total.shape

(936226, 19)

### 1.3 读取Irregular pcs表

In [13]:
df_irregular_total = parcel_data_convert(**irregular_kwargs)

(135915, 10)
处理之前，邮件总数量为：39778.0
处理之前，包裹总数量为：135915
处理之后，包裹总数量为：39778


In [14]:
df_irregular_total.shape

(39778, 19)

### 1.4 读取NC表

In [15]:
df_nc_total = parcel_data_convert(**nc_kwargs)

(135915, 10)
处理之前，邮件总数量为：785.0
处理之前，包裹总数量为：135915
处理之后，包裹总数量为：785


In [16]:
df_nc_total.shape

(785, 19)

### 1.5 读取isb表

In [17]:
df_isb_total = parcel_data_convert(**isb_kwargs)

(135915, 10)
处理之前，邮件总数量为：248083.0
处理之前，包裹总数量为：135915
处理之后，包裹总数量为：248083


In [18]:
df_isb_total.shape

(248083, 19)

## 2 合并所有类型的表

In [19]:
df_total = pd.concat([df_parcel_total,df_small_total,df_irregular_total,df_nc_total,df_isb_total])

In [20]:
df_total.shape

(1729398, 19)

In [21]:
df_total.head(3)

Unnamed: 0,small_id,parcel_id,parcel_type,src_type,dest_type,plate_num,uld_num,arrive_time,send_time,plan_disallow_tm,actual_disallow_tm,src_apt,dest_apt,dest_city_code,ident_des_zno,plate_priority,is_mixture,inserted_on,modified_on
0,,,parcel,D,D,CSS75,,2045-02-08 00:16:27,,,,PVG,PEK,,,,,,
1,,,parcel,D,D,CSS75,,2045-02-08 00:16:27,,,,PVG,PEK,,,,,,
2,,,parcel,D,D,CSS75,,2045-02-08 00:16:27,,,,PVG,PEK,,,,,,


## 3 造small_id

In [22]:
small_id_list =["{i:0>{n}}".format(i=i,n=7) for i in range(1000000,int(df_total.shape[0])+1000000)]
small_id_df = pd.DataFrame({"small_id":small_id_list})
small_id_df.shape

(1729398, 1)

In [23]:
display(small_id_df.head(),small_id_df.tail())

Unnamed: 0,small_id
0,1000000
1,1000001
2,1000002
3,1000003
4,1000004


Unnamed: 0,small_id
1729393,2729393
1729394,2729394
1729395,2729395
1729396,2729396
1729397,2729397


In [24]:
df_total['small_id'] = small_id_df

## 4 造parcel_id

#### 4.0 策略：  
1. 分三大类造：纯票类，small(空侧，陆侧)，isb(空侧，陆侧)
2. 编码规则： 
    - 纯票类：parcel_id = p/ir/n + small_id
    - small 空侧：parcel_id = 'sa' + code(7位)
    - small 陆侧：parcel_id = 'sl' + code(7位)
    - isb 空侧：parcel_id = 'ia' + code(7位)
    - isb 陆侧：parcel_id = 'il' + code(7位)
3. 代码策略：
    - 聚合 => plate_id: small_id 字典
    - 哈希轮询式分配 small_id 的 plate_id

### 4.1 分解数据  

In [25]:
data_list = ['small_id','parcel_id','plate_num','uld_num','src_type','dest_type']

### 4.2 纯票类

In [26]:
df_p = df_total.loc[df_total['parcel_type'].isin(['parcel']), data_list]
df_ir = df_total.loc[df_total['parcel_type'].isin(['irregular']), data_list]
df_nc = df_total.loc[df_total['parcel_type'].isin(['nc']), data_list]

In [27]:
# 造纯票类的 parcel_id
df_total.loc[df_total['parcel_type'].isin(['parcel']), 'parcel_id'] = 'p' + str(df_p['small_id'])
df_total.loc[df_total['parcel_type'].isin(['irregular']), 'parcel_id'] = 'ir' + str(df_ir['small_id'])
df_total.loc[df_total['parcel_type'].isin(['nc']), 'parcel_id'] = 'nc' + str(df_nc['small_id'])

### 4.3 small类

In [28]:
# 取出 small 小件类数据
df_small = df_total.loc[df_total['parcel_type'].isin(['small']), data_list]

In [29]:
# 分解空侧、陆侧数据
df_small_air = df_small.loc[df_small.src_type.isin(['I','D','INF']),:]
df_small_land = df_small.loc[df_small.src_type.isin(['R']),:]

#### 4.3.1 空侧数据处理

In [30]:
# 取列表 uld_list
small_air_uld_list = list(df_small_air['uld_num'].unique())
# 取字典 uld: small_id_list
df_small_air_gp = df_small_air.groupby('plate_num')
small_air_gp_dict = df_small_air_gp['small_id'].apply(list).to_dict()

In [None]:
# 分包方案2  == 哈希轮询方案
def pkg_func(gp_dict,parcel_type,pkg_n):
    for gp_id,small_id_list in gp_dict.items():
        if small_id_list:
            parcel_num = math.ceil(len(small_id_list)/pkg_n)

            for i in range(parcel_num):
                # 赋值
                code = "{i:0>{n}}".format(i=i,n=4)
                small_ids = [small_id_list[j] for j in range(len(small_id_list)) if j % parcel_num == i]
                df_total.loc[df_total.small_id.isin(small_ids), 'parcel_id'] = gp_id + parcel_type + code

In [None]:
pkg_func(small_air_gp_dict,'si',20)

#### 4.3.2 陆侧数据处理

In [None]:
# 取列表 uld_list
small_land_uld_list = list(df_small_land['plate_num'].unique())
# 取字典 uld: small_id_list
df_small_land_gp = df_small_land.groupby('plate_num')
small_land_gp_dict = df_small_land_gp['small_id'].apply(list).to_dict()

In [None]:
# 分包方案2  == 哈希轮询方案
for plate_num,small_id_list in small_land_gp_dict.items():
    if small_id_list:
        parcel_num = math.ceil(len(small_id_list)/20)

        for i in range(len(small_id_list)):
            # 赋值
            code = i % parcel_num
            df_total.loc[df_total['small_id']==small_id_list[i], 'parcel_id'] = plate_num + 's' + str(code)

In [None]:
pkg_func(small_land_gp_dict,'sl',20)

### 4.4 isb类

In [None]:
# 取出 isb 小件类数据
df_isb = df_total.loc[df_total['parcel_type'].isin(['isb']), data_list]

In [None]:
# 分解空侧、陆侧数据
df_isb_air = df_isb.loc[df_isb.src_type.isin(['I','D','INF']),:]
df_isb_land = df_isb.loc[df_isb.src_type.isin(['R']),:]

#### 4.4.1 空侧数据处理

In [None]:
# 取列表 uld_list
isb_air_uld_list = list(df_isb_air['uld_num'].unique())
# 取字典 uld: small_id_list
df_isb_air_gp = df_isb_air.groupby('uld_num')
isb_air_gp_dict = df_isb_air_gp['small_id'].apply(list).to_dict()

In [None]:
pkg_func(isb_air_gp_dict,'mi',100)

#### 4.4.2 陆侧数据处理

In [None]:
# 取列表 uld_list
isb_land_uld_list = list(df_isb_land['plate_num'].unique())
# 取字典 uld: small_id_list
df_isb_land_gp = df_isb_land.groupby('plate_num')
isb_land_gp_dict = df_isb_land_gp['small_id'].apply(list).to_dict()

In [None]:
pkg_func(isb_land_gp_dict,'ml',100)

## 5 造uld_num

**策略：**  
1. 读取 uld 表为 df_uld，取出状态为 loaded 的箱子 == 可以装货的箱子；
2. df_uld 用航班号 flight_id 聚合 => 字典 flight_id：uld_list；
3. total 用航班号 flight_id 聚合 => 字典 flight_id：parcel_id_list；
4. 造uld的伪代码：
    ```
    for flight_id in flight_id_list:  
        取出 flight_id 的 parcel_id_list  
        打乱 parcel_id_list 的顺序  
        for uld_id in uld_list:  
            从 parcel_id_list 取出 qt 个 url_parcel_id_lsit
            df.loc[df['parcel_id'].isin(url_parcel_id_lsit)  ]
    ```

### 5.1 读取 uld表

In [None]:
# 读取新版的ULD数据
uld_name = r'./file/0103ULD_id.xlsx'
uld_sheetname = 'ULD'
uld_parse_cols = 'A:C'

df_uld = pd.read_excel(
    io=uld_name,
    sheet_name=uld_sheetname,
    usecols=uld_parse_cols,
)

In [None]:
df_uld.shape

In [None]:
df_uld.head(3)

### 5.2  df_uld 聚合

In [None]:
df_uld = df_uld.loc[df_uld['property'] == 'loaded',:]
df_uld_gp = df_uld.groupby('flight id')
uld_gp_dict = df_uld_gp['ULD id'].apply(list).to_dict()

### 5.3 total 聚合

In [None]:
total_gp = df_total.groupby('plate_num')
total_gp_dict = total_gp['parcel_id'].apply(list).to_dict()

### 5.4 造uld

In [None]:
# 初始化
uld_list = list(df_uld['ULD id'].unique())
uld_dict = {u:[] for u in uld_list}

In [None]:
# 方案2 == 哈希轮询分配方案
for plate_num,uld_list in uld_gp_dict.items():
    uld_qt = len(uld_list)
    for i in range(uld_list):
        uld_dict[uld] = [total_gp_dict[uld_list[i]][j] for j in range(len(total_gp_dict[uld_list[i]]) if j % uld_qt == i]

In [None]:
# 赋值 uld_num
for uld_num,parcel_list in uld_dict.items():
    df_total.loc[df_total.parcel_id.isin(parcel_list),'uld_num'] = uld_num

## 6 写入数据库

In [None]:
## 数据库信息
# 写入本地数据库
wirte_sql_table = 'i_od_parcel_2025v31_mix_test'
user_name = 'root'
password = 'root123'
db_name = 'ezhou'

engine = create_engine(
    "mysql+pymysql://{user_name}:{password}@localhost:3306/{db_name}?charset=utf8".format(
        user_name=user_name,
        password=password,
        db_name=db_name, ))

In [None]:
df_total.to_sql(wirte_sql_table,engine,if_exists='append',chunksize=10000,index=False)