In [1]:
import pandas as pd
from pandas import Series,DataFrame
import numpy as np

**DataFrame的创建**

最常用的方法时传递一个字典来创建，DataFrame以字典的键作为每一【列】的名称，
以字典的值（一个数组）作为每一列，
此外，DataFrame会自动加上每一行的索引（和Series一样），
同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

In [2]:
# 1.分块创建
data = np.random.randint(1,150,size=(4,4))
index = ['张三','李四','王五','赵六']
columns = ['语文','数学','英语','体育']
df = DataFrame(data,index,columns)
df

Unnamed: 0,语文,数学,英语,体育
张三,32,2,25,121
李四,141,123,139,51
王五,37,139,51,77
赵六,38,8,101,81


In [10]:
# 2.字典创建
df = DataFrame({
                '语文':np.random.randint(1,150,size=4),
                '数学':np.random.randint(1,150,size=4),
                '英语':np.random.randint(1,150,size=4),
                'python':np.random.randint(1,150,size=4)
               },index=['张三','李四','王五','赵六'])
df

Unnamed: 0,语文,数学,英语,python
张三,53,16,12,120
李四,36,75,53,5
王五,85,141,140,45
赵六,51,19,143,56


**DataFrame的属性:values、columns、index、shape**

In [6]:
display(df.values,df.columns,df.index,df.shape)

array([[  6,  21,  17,  94],
       [ 75, 117,  93, 148],
       [ 25, 133,  11,  41],
       [ 65, 144,  43,  11]])

Index(['语文', '数学', '英语', 'python'], dtype='object')

Index(['张三', '李四', '王五', '赵六'], dtype='object')

(4, 4)

In [11]:
# columns和idnex都是Index对象，可以相互转化
# df.columns,df.index = df.index,df.columns
df

Unnamed: 0,语文,数学,英语,python
张三,53,16,12,120
李四,36,75,53,5
王五,85,141,140,45
赵六,51,19,143,56


**DataFrame的索引**

1.对列进行索引
    --通过类似字典的方式
    --使用属性的方式
    可以将DataFrame的列获取为一个Series，返回的Series拥有原DataFrame相同的索引，
    且name属性也已经设置好了，就是相应的列名

In [13]:
df['数学']

张三     16
李四     75
王五    141
赵六     19
Name: 数学, dtype: int32

In [14]:
df.语文

张三    53
李四    36
王五    85
赵六    51
Name: 语文, dtype: int32

In [17]:
# 新增一列
df['计算机'] = np.random.randint(1,150,size=4)
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,53,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


In [19]:
# 新增的列不能使用属性的写法
df.Java = np.random.randint(1,150,size=4)

  df.Java = np.random.randint(1,150,size=4)


2.对行进行索引  
    &emsp;&emsp;--使用.loc[index]来进行索引  
    &emsp;&emsp;--使用.iloc[整数]来进行索引  
    &emsp;&emsp;同样返回一个Series，Index为原来的columns

In [22]:
# 显示写法
df.loc['张三']

语文         53
数学         16
英语         12
python    120
计算机        17
Name: 张三, dtype: int32

In [24]:
# 隐式写法
df.iloc[1]

语文        36
数学        75
英语        53
python     5
计算机       70
Name: 李四, dtype: int32

3.对元素进行索引  
    &emsp;&emsp;--使用列索引  
    &emsp;&emsp;--使用行索引（iloc[3,1]相当于两个参数；iloc[[3,1]里面的[3,1]看作一个参数]  
    &emsp;&emsp;--使用values属性（二维度额numpy数组）  

In [34]:
# 先列后行(链式索引)
df['英语'].loc['李四']

45

In [27]:
# 先行后列（链式索引）
df.loc['李四'].loc['英语']

53

In [52]:
# 先行后列的推荐写法
df.loc['李四','英语']

45

In [53]:
df.iloc[1,2]

45

In [35]:
# 不推荐使用链式索引进行元素赋值，又可能会引发未知结果

**切片**

In [36]:
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,45,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


In [69]:
# 列切片
df['数学':'python'] # 直接使用中括号，接冒号，是在对行进行切片，
# 因为行中没有 数学和python两索引，所以返回数据只有列名

Unnamed: 0,语文,数学,英语,python,计算机


In [39]:
df['张三':'王五'] # 全闭区间

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,45,5,70
王五,85,141,140,45,3


In [43]:
# 真正的列切片
df[['数学','python']]

Unnamed: 0,数学,python
张三,16,120
李四,75,5
王五,141,45
赵六,19,56


In [47]:
# 真正的列切片
df.iloc[:,0:3] # 先对行进行全都要操作，然后再对列进行切片

Unnamed: 0,语文,数学,英语
张三,53,16,12
李四,36,75,45
王五,85,141,140
赵六,51,19,143


In [48]:
# 真正的列切片
df.loc[:,'语文':'python']

Unnamed: 0,语文,数学,英语,python
张三,53,16,12,120
李四,36,75,45,5
王五,85,141,140,45
赵六,51,19,143,56


**DataFrame索引总结**

1.行索引使用loc[]、iloc[]，列索引使用中括号[]  
2.对元素的索引，先索引行，再索引列，df.loc[index,cloumns]  
3.如果还想返回DataFrame，那么使用两层中括号：  
    &emsp;&emsp;注意：1.直接使用中括号的时候，如果是切片，那么是对行切片  
        &emsp;&emsp;2.不要使用链式索引  
 
 【注意】直接使用中括号时：  
     &emsp;&emsp;1.索引表示的是列索引  
     &emsp;&emsp;2.切片表示的是行切片  

In [68]:
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,108,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


In [61]:
# 1.索引张三的英语成绩
display(df.loc['张三','英语'],df['英语'].loc['张三'],df.英语.loc['张三'])

12

12

12

In [70]:
# 1.索引张三的英语成绩（要求还是返回一个DataFrame）
display(df.loc['张三':'张三','英语':'英语'],df.loc[['张三'],['英语']])

Unnamed: 0,英语
张三,12


Unnamed: 0,英语
张三,12


In [64]:
#2.切片，切语文到数学的成绩
display(df[['语文','数学']],df.loc[:,'语文':'数学'])

Unnamed: 0,语文,数学
张三,53,16
李四,36,75
王五,85,141
赵六,51,19


Unnamed: 0,语文,数学
张三,53,16
李四,36,75
王五,85,141
赵六,51,19


In [67]:
# 3.对李四的英语成绩进行赋值，赋值为108
df.loc['李四','英语'] = 108
# df['英语'].loc['李四'] = 0
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,108,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


**DataFrame的运算**

In [71]:
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,108,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


In [72]:
df+1

Unnamed: 0,语文,数学,英语,python,计算机
张三,54,17,13,121,18
李四,37,76,109,6,71
王五,86,142,141,46,4
赵六,52,20,144,57,25


In [74]:
df*2

Unnamed: 0,语文,数学,英语,python,计算机
张三,106,32,24,240,34
李四,72,150,216,10,140
王五,170,282,280,90,6
赵六,102,38,286,112,48


DataFrame和DataFrame之间的运算，行列一致才运算，否则补NaN

In [84]:
df2 = DataFrame({
                '语文':np.random.randint(1,150,size=5),
                '数学':np.random.randint(1,150,size=5),
                '英语':np.random.randint(1,150,size=5),
                'python':np.random.randint(1,150,size=5)
               },index=['张三','李四','王五','赵六','田七'])
display(df,df2)

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,108,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


Unnamed: 0,语文,数学,英语,python
张三,98,105,46,130
李四,11,27,115,63
王五,15,70,45,83
赵六,110,102,60,72
田七,137,45,20,63


In [85]:
df+df2

Unnamed: 0,python,数学,英语,计算机,语文
张三,250.0,121.0,58.0,,151.0
李四,68.0,102.0,223.0,,47.0
王五,128.0,211.0,185.0,,100.0
田七,,,,,
赵六,128.0,121.0,203.0,,161.0


In [86]:
df.add(df2,fill_value=0)

Unnamed: 0,python,数学,英语,计算机,语文
张三,250.0,121.0,58.0,17.0,151.0
李四,68.0,102.0,223.0,70.0,47.0
王五,128.0,211.0,185.0,3.0,100.0
田七,63.0,45.0,20.0,,137.0
赵六,128.0,121.0,203.0,24.0,161.0


Series与DataFrame之间的运算

In [90]:
s = Series(data=np.random.randint(1,150,size=5),index=df.columns)
display(df,s)

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,108,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


语文         94
数学         97
英语         63
python    119
计算机        78
dtype: int32

In [92]:
# 直接进行运算，观察DataFrame的列索引和Series的索引是否一致，一直就进行相应的运算
df+s

Unnamed: 0,语文,数学,英语,python,计算机
张三,147,113,75,239,95
李四,130,172,171,124,148
王五,179,238,203,164,81
赵六,145,116,206,175,102


In [95]:
s1 = Series(data=np.random.randint(1,150,size=4),index=['张三','李四','王五','赵六'])
s1

张三      1
李四    134
王五    120
赵六     33
dtype: int32

In [97]:
# 使用运算符的默认操作是DataFrame的的列索引和Series的索引进行比较
df+s1

Unnamed: 0,python,张三,数学,李四,王五,英语,计算机,语文,赵六
张三,,,,,,,,,
李四,,,,,,,,,
王五,,,,,,,,,
赵六,,,,,,,,,


In [101]:
# 使用axis改变运算方向
display(df,s1,df.add(s1,axis=0))

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,16,12,120,17
李四,36,75,108,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


张三      1
李四    134
王五    120
赵六     33
dtype: int32

Unnamed: 0,语文,数学,英语,python,计算机
张三,54,17,13,121,18
李四,170,209,242,139,204
王五,205,261,260,165,123
赵六,84,52,176,89,57


归纳总结：  
&emsp;&emsp;1.DataFrame和单个数字运算，每个元素分别运算  
&emsp;&emsp;2.DataFrame和DataFrame运算，相同行列索引进行云南省，不同索引为Nan  
&emsp;&emsp;3.DataFrame和Series运算，使用运算符的时候，默认比较DataFrame的列索引和Series的索引  
&emsp;&emsp;4.如果想要保留原始数据，或者改变运算方向，则使用pandas封装的方法

In [109]:
# 1.假设df是期中考试成绩，df3是期末考试成绩，请自由创建df3，并于df1相加，
# 求期中期末平均值
df3 = df.copy()
df3.values = np.random.randint(1,150,size=(4,5)) # 不能这样赋值，会被当成新增列
df3

  df3.values = np.random.randint(1,150,size=(4,5)) # 不能这样赋值，会被当成新增列


AttributeError: can't set attribute

In [112]:
df3 = DataFrame(data=np.random.randint(1,150,size=(4,5)),
                index=df.index,
                columns=df.columns)
display(df,df3,(df+df3)/2)

Unnamed: 0,语文,数学,英语,python,计算机
张三,58,5,17,125,22
李四,51,90,123,20,85
王五,90,146,145,50,8
赵六,56,24,148,61,29


Unnamed: 0,语文,数学,英语,python,计算机
张三,96,48,36,98,141
李四,147,29,40,40,89
王五,105,31,31,60,142
赵六,26,140,109,38,68


Unnamed: 0,语文,数学,英语,python,计算机
张三,77.0,26.5,26.5,111.5,81.5
李四,99.0,59.5,81.5,30.0,87.0
王五,97.5,88.5,88.0,55.0,75.0
赵六,41.0,82.0,128.5,49.5,48.5


In [104]:
# 2.假设张三期中考试被发现数学考试作弊，要记为0分，如何实现
df.loc['张三','数学'] = 0
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,0,12,120,17
李四,36,75,108,5,70
王五,85,141,140,45,3
赵六,51,19,143,56,24


In [105]:
# 3.李四因为举报张三作弊有功，期中考试所有科目加10分，如何实现
df.loc['李四']+=10
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,53,0,12,120,17
李四,46,85,118,15,80
王五,85,141,140,45,3
赵六,51,19,143,56,24


In [107]:
# 4.后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生每个科目加5分，如何实现
df+=5
df

Unnamed: 0,语文,数学,英语,python,计算机
张三,58,5,17,125,22
李四,51,90,123,20,85
王五,90,146,145,50,8
赵六,56,24,148,61,29


In [111]:
# filename = r'C:\Users\EDZ\Desktop\道骊\Sampling 上传_369-80257505_20-12-21(1)(1).xls'
filename = r'C:\Users\EDZ\Desktop\道骊\test1.xls'
df = pd.read_excel(filename, dtype='str')
df = df.where(df.notnull(), None)
df['原件数'] = df['原件数'].astype('int')
df['首次送样件数'] = df['首次送样件数'].astype('int')
df['送检分组'] = df['报关序号（检索用）'] + ' ' + df['MODEL'] + ' ' + df['QUALITY'] + ' ' + df['ID_COLOUR']
df_num = df.groupby('送检分组').agg({'原件数': 'sum'}).reset_index()

df_rows = []
mark_list = set()
for row in df.index:
    mark = df.loc[row, '报关序号（检索用）'] + " " + df.loc[row, 'MODEL'] + ' ' + df.loc[row, 'QUALITY'] + ' ' + df.loc[
        row, 'ID_COLOUR']
    if df.loc[row, '首次送样件数'] > 0:
        mark_list.add(mark)
        df_rows.append(df.loc[row])

for row in df.index:
    mark = df.loc[row, '报关序号（检索用）'] + " " + df.loc[row, 'MODEL'] + ' ' + df.loc[row, 'QUALITY'] + ' ' + df.loc[
        row, 'ID_COLOUR']
    if df.loc[row, '首次送样件数'] == 0:
        if mark not in mark_list:
            mark_list.add(mark)
            df_rows.append(df.loc[row])
df_rows_len = len(df_rows)
new_df = pd.DataFrame(index=range(df_rows_len), columns=df.columns)
new_df['原件数总数'] = None
for i in range(df_rows_len):
    new_df.loc[i] = df_rows[i]
    new_df.loc[i, '原件数总数'] = dict(df_num.values)[df_rows[i]['送检分组']]

# new_df.sort_values(by=['报关序号（检索用）', '首次送样件数'], ascending=[True, False], inplace=True)
# new_df
cs = list(new_df.columns)
cs.remove('箱号')
cs.remove('序号')
cs.remove('首次送样件数')
cs.remove('最终抽样件数')
cs.remove('报检单序号')
cs.remove('原件数')
df_ = new_df.groupby(cs)['首次送样件数'].agg('sum').reset_index()
type(df_)
df_.sort_values(by=['报关序号（检索用）', '首次送样件数'], ascending=[True, False], inplace=True)
df_.to_excel('hhhh.xlsx')
df_ = new_df.groupby(cs)['首次送样件数'].agg('sum').reset_index()
df_
# df = old_df.join(old_df.set_index('送检分组'),rsuffix='q',on='送检分组')
# df

# df['报关序号（检索用）'] = df['报关序号（检索用）'].astype('int')
# # 1 获取所有 首次送样件数 大于0的行
# m_df = df[df['首次送样件数']>0] 
# mdf1 = m_df.groupby(['送检分组','店铺号'])['首次送样件数'].agg('sum').reset_index()
# m_df = m_df.join(m_df.set_index('送检分组'),rsuffix='q',on='送检分组',how='right')
# # m_df['首次送样件数'] = m_df['首次送样件数q']


# # # 2 获取所有 首次送样件数 等于0的行 且去重 且排除1中的数据
# # s_df = df[df['首次送样件数']==0].drop_duplicates(['送检分组']) 
# # s_df = s_df[~s_df['送检分组'].isin(m_df['送检分组'].values)]  
# # # 3 合并1，2。添加 原件数 统计总数列
# # main_df = m_df.append(s_df)  
# # out_df = main_df.join(df_num.set_index('送检分组'), how='left', rsuffix='总数', on='送检分组')
# # out_df.sort_values(by=['报关序号（检索用）', '首次送样件数'], ascending=[True, False], inplace=True)
# # df1 = out_df
# display(mdf1,m_df)

Unnamed: 0,报检单号,报关序号（检索用）,品名,商编,款号等信息,原产国,店铺号,MODEL,QUALITY,ID_COLOUR,SIZE,送样日期,awb,Invoice,date,送检分组,原件数总数,首次送样件数
0,D/CIQ/194986,10,棉制针织男童T恤衫,6109100021,4|3|针织|T恤衫|无领、无扣、无拉链|100%棉|ZARA(飒拉)|2725/668等|...,摩洛哥,100568,2725,668,200,9,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,10 2725 668 200,236,2
1,D/CIQ/194986,10,棉制针织男童T恤衫,6109100021,4|3|针织|T恤衫|无领、无扣、无拉链|100%棉|ZARA(飒拉)|2725/668等|...,摩洛哥,100568,2725,669,323,6,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,10 2725 669 323,234,0
2,D/CIQ/194986,11,棉制针织男童T恤衫,6109100021,4|3|针织|T恤衫|无领、无扣、无拉链|100%棉|ZARA(飒拉)|5767/664等|...,葡萄牙,100568,2926,661,800,9,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,11 2926 661 800,1,0
3,D/CIQ/194986,11,棉制针织男童T恤衫,6109100021,4|3|针织|T恤衫|无领、无扣、无拉链|100%棉|ZARA(飒拉)|5767/664等|...,葡萄牙,100568,5767,664,611,12,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,11 5767 664 611,155,2
4,D/CIQ/194986,11,棉制针织男童T恤衫,6109100021,4|3|针织|T恤衫|无领、无扣、无拉链|100%棉|ZARA(飒拉)|5767/664等|...,葡萄牙,10741,3337,515,600,24,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,11 3337 515 600,60,0
5,D/CIQ/194986,12,化纤制机织女成人衬衫,6206400020,4|3|机织|衬衫|女式|82%粘纤18%聚酯纤维|非T恤衫|ZARA(飒拉)|3067/4...,土耳其,100568,3067,435,800,XS,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,12 3067 435 800,72,1
6,D/CIQ/194986,18,棉制机织婴儿上衣,6209200000,4|3|机织|上衣|婴儿|100%棉|长38厘米|ZARA(飒拉)|3335/040-1||...,摩洛哥,100568,3335,40,712,18,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,18 3335 040 712,14,3
7,D/CIQ/194986,19,棉制针织婴儿T恤衫,6111200050,4|3|针织|T恤衫|婴儿|100%棉|衣长38CM|ZARA(飒拉)|3337/515-1...,葡萄牙,100568,3335,507,712,18,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,19 3335 507 712,3,0
8,D/CIQ/194986,19,棉制针织婴儿T恤衫,6111200050,4|3|针织|T恤衫|婴儿|100%棉|衣长38CM|ZARA(飒拉)|3337/515-1...,葡萄牙,100568,3336,685,710,12,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,19 3336 685 710,8,0
9,D/CIQ/194986,19,棉制针织婴儿T恤衫,6111200050,4|3|针织|T恤衫|婴儿|100%棉|衣长38CM|ZARA(飒拉)|3337/515-1...,葡萄牙,10741,3337,515,600,18,2020-12-21 00:00:00,369-80257505,03-27425,17/12/2020,19 3337 515 600,10,3


In [24]:
df1 = pd.read_excel(r'C:\Users\EDZ\Desktop\汉星\excel-excel\202011远航物流016仓储费.xlsx',)
df2 = pd.read_excel(r'C:\Users\EDZ\Desktop\汉星\excel-excel\202011远航物流016仓储费CCSP系统导出版本.xlsx')

In [25]:
# df1['航程'] = df1['航班起点站']+'→'+df1['航班目的站']
df1

Unnamed: 0,序号,运单号,代理人,件数,毛量(KG),计量(KG),国际/国内,航班号,航班日期,航班起点站,航班目的站,货物处理代码,备注,国内海关监管,费用
0,1,016-55756713,HSS,1,7,16.0,国际,UA858,2020-11-01,PVG,SFO,,,,1
1,2,016-55756735,HSS,11,3339,3339.0,国际,UA2816,2020-11-03,PVG,LAX,,,,2
2,3,016-55756746,HSS,22,226,226.0,国际,UA858,2020-11-01,PVG,SFO,,,,3
3,4,016-55756761,HSS,10,2352,2444.0,国际,UA858,2020-11-01,PVG,SFO,ELM,,,4
4,5,016-55756794,HSS,12,2317,2486.0,国际,UA858,2020-11-08,PVG,SFO,,,,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
73,74,016-62195490,HSS,60,1020,1020.0,国际,UA2816,2020-11-28,PVG,LAX,,,,74
74,75,016-62195501,HSS,84,1428,1428.0,国际,UA2816,2020-11-28,PVG,LAX,,,,75
75,76,016-62195512,HSS,180,3060,3060.0,国际,UA2816,2020-11-28,PVG,LAX,,,,76
76,77,016-62195523,HSS,8,136,136.0,国际,UA2816,2020-11-28,PVG,LAX,,,,77


In [4]:
df2['金额_two'] = df2['数量']*df2['单价']
df2['金额_two'] = df2['金额_two'].astype('str')
df2['金额_two'] = [i[:i.find('.')+2] for i in df2['金额_two']]
df2['金额_two'] = df2['金额_two'].astype('float64')
df2['金额比对'] = df2['金额_two']==df2['金额']
# display(df2['金额_two'],df2['金额'],df2['金额比对'],df2[df2['金额比对']==False],df1.loc[0,'航程']==df2.loc[0,'航程'])
df2

Unnamed: 0,订单号,运单号,航程,航班号,航班日期,类型,Unnamed: 6,发票抬头,费用,收付类型,...,金额,已核销,未核销,结算单位,附加说明,费用状态,财务区间,开票日期,金额_two,金额比对
0,HSS201127012,016-62195453,PVG→SFO,UA858,2020-11-28,出口,,,仓储费,应付,...,990.8,-,990.8,远航物流,,已审核,2020-11,,990.8,True
1,HSS201126128,016-62195464,PVG→DEN,UA2816,2020-11-28,出口,,,仓储费,应付,...,1020.0,-,1020.0,远航物流,,已审核,2020-11,,1020.0,True
2,HSS201126126,016-62195490,PVG→LAX,UA2816,2020-11-28,出口,,,仓储费,应付,...,408.0,-,408.0,远航物流,,已审核,2020-11,,408.0,True
3,HSS201126125,016-62195512,PVG→EWR,UA2816,2020-11-28,出口,,,仓储费,应付,...,1224.0,-,1224.0,远航物流,,已审核,2020-11,,1224.0,True
4,HSS201126124,016-62195501,PVG→IAD,UA2816,2020-11-28,出口,,,仓储费,应付,...,571.2,-,571.2,远航物流,,已审核,2020-11,,571.2,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75,HSS201030151,016-55756702,PVG→LAX,UA2816,2020-11-03,出口,,,仓储费,应付,...,1500.8,-,1500.8,远航物流,,已审核,2020-11,,1500.8,True
76,HSS201029004,016-55756735,PVG→LAX,UA2816,2020-11-03,出口,,,仓储费,应付,...,1335.6,-,1335.6,远航物流,,已审核,2020-11,,1335.6,True
77,HSS201031009,016-55756746,PVG→SFO,UA858,2020-11-01,出口,,,仓储费,应付,...,90.4,-,90.4,远航物流,,已审核,2020-11,,90.4,True
78,HSS201030088,016-55756761,PVG→SFO,UA858,2020-11-01,出口,,,仓储费,应付,...,977.6,-,977.6,远航物流,,已审核,2020-11,,977.6,True


In [26]:
indexs = df1[df1['备注']=='分批货'].copy()
indexs.sort_values('运单号',inplace=True)
indexs = indexs.index
indexs
for i in range(1,len(indexs)):
    if df1.loc[indexs[i],'运单号'] == df1.loc[indexs[i-1],'运单号']:
        df1.loc[indexs[i],'件数'] += df1.loc[indexs[i-1],'件数']
        df1.loc[indexs[i],'毛量(KG)'] += df1.loc[indexs[i-1],'毛量(KG)']
        df1.loc[indexs[i],'计量(KG)'] += df1.loc[indexs[i-1],'计量(KG)']
        df1.drop(index=indexs[i-1],inplace=True)
        print(indexs[i-1])
df1

# df1.to_excel(r'C:\Users\EDZ\Desktop\汉星\excel-excel\远航物流016仓储费-副本.xlsx')

10
35


Unnamed: 0,序号,运单号,代理人,件数,毛量(KG),计量(KG),国际/国内,航班号,航班日期,航班起点站,航班目的站,货物处理代码,备注,国内海关监管,费用
0,1,016-55756713,HSS,1,7,16.0,国际,UA858,2020-11-01,PVG,SFO,,,,1
1,2,016-55756735,HSS,11,3339,3339.0,国际,UA2816,2020-11-03,PVG,LAX,,,,2
2,3,016-55756746,HSS,22,226,226.0,国际,UA858,2020-11-01,PVG,SFO,,,,3
3,4,016-55756761,HSS,10,2352,2444.0,国际,UA858,2020-11-01,PVG,SFO,ELM,,,4
4,5,016-55756794,HSS,12,2317,2486.0,国际,UA858,2020-11-08,PVG,SFO,,,,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
73,74,016-62195490,HSS,60,1020,1020.0,国际,UA2816,2020-11-28,PVG,LAX,,,,74
74,75,016-62195501,HSS,84,1428,1428.0,国际,UA2816,2020-11-28,PVG,LAX,,,,75
75,76,016-62195512,HSS,180,3060,3060.0,国际,UA2816,2020-11-28,PVG,LAX,,,,76
76,77,016-62195523,HSS,8,136,136.0,国际,UA2816,2020-11-28,PVG,LAX,,,,77


In [6]:
df2.drop(index=list(df2[df2['附加说明'] == '重复入账'].index),inplace=True)
del_list = []
for i in range(0,len(df2.index)-1):
    for j in range(i+1,len(df2.index)):
        if df2.loc[df2.index[i],'订单号']==df2.loc[df2.index[j],'订单号'] and df2.loc[df2.index[i],'运单号']==df2.loc[df2.index[j],'运单号'] and df2.loc[df2.index[i],'数量']==df2.loc[df2.index[j],'数量'] and df2.loc[df2.index[i],'单价']==df2.loc[df2.index[j],'单价'] and df2.loc[df2.index[i],'金额']==df2.loc[df2.index[j],'金额']:
            print(df2.index[i],df2.index[j])
            del_list.append(df2.index[j])
df2.drop(index=del_list,inplace=True)

24 25


In [121]:
df2

Unnamed: 0,订单号,运单号,航程,航班号,航班日期,类型,Unnamed: 6,发票抬头,费用,收付类型,...,金额,已核销,未核销,结算单位,附加说明,费用状态,财务区间,开票日期,金额_two,金额比对
0,HSS201127012,016-62195453,PVG→SFO,UA858,2020-11-28,出口,,,仓储费,应付,...,990.8,-,990.8,远航物流,,已审核,2020-11,,990.8,True
1,HSS201126128,016-62195464,PVG→DEN,UA2816,2020-11-28,出口,,,仓储费,应付,...,1020.0,-,1020.0,远航物流,,已审核,2020-11,,1020.0,True
2,HSS201126126,016-62195490,PVG→LAX,UA2816,2020-11-28,出口,,,仓储费,应付,...,408.0,-,408.0,远航物流,,已审核,2020-11,,408.0,True
3,HSS201126125,016-62195512,PVG→EWR,UA2816,2020-11-28,出口,,,仓储费,应付,...,1224.0,-,1224.0,远航物流,,已审核,2020-11,,1224.0,True
4,HSS201126124,016-62195501,PVG→IAD,UA2816,2020-11-28,出口,,,仓储费,应付,...,571.2,-,571.2,远航物流,,已审核,2020-11,,571.2,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75,HSS201030151,016-55756702,PVG→LAX,UA2816,2020-11-03,出口,,,仓储费,应付,...,1500.8,-,1500.8,远航物流,,已审核,2020-11,,1500.8,True
76,HSS201029004,016-55756735,PVG→LAX,UA2816,2020-11-03,出口,,,仓储费,应付,...,1335.6,-,1335.6,远航物流,,已审核,2020-11,,1335.6,True
77,HSS201031009,016-55756746,PVG→SFO,UA858,2020-11-01,出口,,,仓储费,应付,...,90.4,-,90.4,远航物流,,已审核,2020-11,,90.4,True
78,HSS201030088,016-55756761,PVG→SFO,UA858,2020-11-01,出口,,,仓储费,应付,...,977.6,-,977.6,远航物流,,已审核,2020-11,,977.6,True


In [35]:
df1['航班日期'] = df1['航班日期'].astype('str')
df2['航班日期'] = df2['航班日期'].astype('str')
for i in df1.index:
#     print(df1.loc[i,'运单号'])
    for j in df2.index:
        if df1.loc[i,'运单号'] == df2.loc[j,'运单号']:
            if df1.loc[i,'航程'] != df2.loc[j,'航程']:
                print('航程不相等')
                print(df1.loc[[i],['运单号','航程','航班起点站','航班目的站']])
                print(df2.loc[[j],['运单号','航程']])
            elif df1.loc[i,'航班号'] != df2.loc[j,'航班号']:
                print('航班号不相等')
                print(df1.loc[[i],['运单号','航班号']])
                print(df2.loc[[j],['运单号','航班号']])
            elif df1.loc[i,'航班日期'] !=df2.loc[j,'航班日期']:
                print('航班日期不相等')
                print(df1.loc[[i],['运单号','航班日期']])
                print(df2.loc[[j],['运单号','航班日期']])
            elif df1.loc[i,'计量(KG)'] !=df2.loc[j,'数量']:
                print('计量(KG)、数量 不相等')
                print(df1.loc[[i],['运单号','计量(KG)']])
                print(df2.loc[[j],['运单号','数量']])

计量(KG)、数量 不相等
            运单号  计量(KG)
0  016-55756713    16.0
             运单号  数量
79  016-55756713   1
航程不相等
            运单号       航程 航班起点站 航班目的站
8  016-55756831  PVG→ORD   PVG   ORD
             运单号       航程
71  016-55756831  PVG→HNL
航班日期不相等
             运单号        航班日期
11  016-55756853  2020-11-11
             运单号        航班日期
67  016-55756853  2020-11-10
航程不相等
             运单号       航程 航班起点站 航班目的站
14  016-55756886  PVG→LAX   PVG   LAX
             运单号       航程
62  016-55756886  PVG→SFO
航程不相等
             运单号       航程 航班起点站 航班目的站
15  016-55756890  PVG→LAX   PVG   LAX
             运单号       航程
63  016-55756890  PVG→EWR
航程不相等
             运单号       航程 航班起点站 航班目的站
16  016-55756901  PVG→ORD   PVG   ORD
             运单号       航程
51  016-55756901  PVG→DEN
航程不相等
             运单号       航程 航班起点站 航班目的站
17  016-55756912  PVG→LAX   PVG   LAX
             运单号       航程
53  016-55756912  PVG→EWR
航程不相等
             运单号       航程 航班起点站 航班目的站
18  016-55756923  PVG→SFO   PVG   SFO
             运单号      

In [39]:
df1['计量(KG)'] = df1['计量(KG)'].astype('int64')
display(df1['计量(KG)'],df1['费用'],df2['数量'],df2['金额'])


0       16
1     3339
2      226
3     2444
4     2486
      ... 
73    1020
74    1428
75    3060
76     136
77     170
Name: 计量(KG), Length: 76, dtype: int64

0      1
1      2
2      3
3      4
4      5
      ..
73    74
74    75
75    76
76    77
77    78
Name: 费用, Length: 76, dtype: int64

0     2477
1     2550
2     1020
3     3060
4     1428
      ... 
75    3752
76    3339
77     226
78    2444
79       1
Name: 数量, Length: 78, dtype: int64

0      990.8
1     1020.0
2      408.0
3     1224.0
4      571.2
       ...  
75    1500.8
76    1335.6
77      90.4
78     977.6
79      10.0
Name: 金额, Length: 78, dtype: float64