## 数据总体预览

In [106]:
import pandas as pd

# Load the Excel file
excel_data = pd.ExcelFile("./Data&Question/file1.xlsx")

# Load each sheet to examine the contents for further analysis
company_info = excel_data.parse('企业信息')
input_invoice_info = excel_data.parse('进项发票信息')
output_invoice_info = excel_data.parse('销项发票信息')

# Display the first few rows of each sheet to understand their structure
company_info_head = company_info.head()
input_invoice_info_head = input_invoice_info.head()
output_invoice_info_head = output_invoice_info.head()

company_info_head, input_invoice_info_head, output_invoice_info_head



(  企业代号                 企业名称 信誉评级 是否违约
 0   E1          ***电器销售有限公司    A    否
 1   E2          ***技术有限责任公司    A    否
 2   E3  ***电子(中国)有限公司***分公司    C    否
 3   E4          ***发展有限责任公司    C    否
 4   E5         ***供应链管理有限公司    B    否,
   企业代号     发票号码       开票日期  销方单位代号       金额      税额     价税合计  发票状态
 0   E1  3390939 2017-07-18  A00297  -943.40  -56.60 -1000.00  有效发票
 1   E1  3390940 2017-07-18  A00297 -4780.24 -286.81 -5067.05  有效发票
 2   E1  3390941 2017-07-18  A00297   943.40   56.60  1000.00  有效发票
 3   E1  3390942 2017-07-18  A00297  4780.24  286.81  5067.05  有效发票
 4   E1  9902669 2017-08-07  A05061   326.21    9.79   336.00  有效发票,
   企业代号      发票号码       开票日期  购方单位代号      金额      税额     价税合计  发票状态
 0   E1  11459356 2017-08-04  B03711 9401.71 1598.29 11000.00  有效发票
 1   E1   5076239 2017-08-09  B00844 8170.94 1389.06  9560.00  有效发票
 2   E1   5076240 2017-08-09  B00844 8170.94 1389.06  9560.00  有效发票
 3   E1   5076241 2017-08-09  B00844 4085.47  694.53  4780.00  有效发票
 4   E1   507624

## 针对进项发票信息的具体处理


In [107]:
# 针对进项发票信息sheet（input_invoice_info的处理）
# 输出input_invoice_info表格中各列的数据
company_code = input_invoice_info['企业代号']
# 提取开票日期中的年份信息
input_invoice_info['开票年份'] = input_invoice_info['开票日期'].dt.year


# 检索并打印对应年份的信息
total_count = 0
for year in [2016, 2020]:
    year_count = input_invoice_info[input_invoice_info['开票年份'] == year].shape[0]
    if year_count > 0:
        print(f"{year}年的进项发票信息中存在数据:")
        print(input_invoice_info[input_invoice_info['开票年份'] == year])
        total_count += year_count
print(f"共有{total_count}条进项发票信息中存在数据")


2016年的进项发票信息中存在数据:
       企业代号      发票号码       开票日期  销方单位代号       金额      税额     价税合计  发票状态  开票年份
42885    E6   1451253 2016-12-01  A08705  9514.56  285.44  9800.00  有效发票  2016
42886    E6   1451254 2016-12-01  A08705  9514.56  285.44  9800.00  有效发票  2016
42887    E6   1451255 2016-12-01  A08705  9514.56  285.44  9800.00  有效发票  2016
42888    E6   1451256 2016-12-01  A08705  9514.56  285.44  9800.00  有效发票  2016
42889    E6   1451257 2016-12-01  A08705  9320.39  279.61  9600.00  有效发票  2016
...     ...       ...        ...     ...      ...     ...      ...   ...   ...
177299  E47   4045412 2016-12-30  A10505 15341.25 2608.01 17949.26  有效发票  2016
185137  E51  10541168 2016-12-09  A04935 63603.60 6996.40 70600.00  有效发票  2016
185138  E51    904513 2016-12-20  A00568 26067.75 4431.52 30499.27  有效发票  2016
190313  E57  35451345 2016-12-14  A13937   169.81   10.19   180.00  有效发票  2016
190314  E57  50134490 2016-12-30  A13938   311.32   18.68   330.00  有效发票  2016

[833 rows x 9 columns]
2020年的进项发

In [108]:
# 继续上面去除16和20年的数据，然后直接去除在company_info中信用等级为D的企业
for company in company_info[company_info['信誉评级'] == 'D']['企业代号']:
    print(f"删除企业代号为{company}的数据")
    input_invoice_info = input_invoice_info[input_invoice_info['企业代号'] != company] 

# 删除以上文件中的发票号码、销方单位代号与价税合计列
input_invoice_info = input_invoice_info.drop(columns=['发票号码', '销方单位代号', '价税合计'])

# 将处理后的input_invoice_info保存为新的Excel文件
input_invoice_info.to_excel("./Data&Question/processed_input_invoice_info.xlsx", index=False)



删除企业代号为E36的数据
删除企业代号为E52的数据
删除企业代号为E82的数据
删除企业代号为E99的数据
删除企业代号为E100的数据
删除企业代号为E101的数据
删除企业代号为E102的数据
删除企业代号为E103的数据
删除企业代号为E107的数据
删除企业代号为E108的数据
删除企业代号为E109的数据
删除企业代号为E111的数据
删除企业代号为E112的数据
删除企业代号为E113的数据
删除企业代号为E114的数据
删除企业代号为E115的数据
删除企业代号为E116的数据
删除企业代号为E117的数据
删除企业代号为E118的数据
删除企业代号为E119的数据
删除企业代号为E120的数据
删除企业代号为E121的数据
删除企业代号为E122的数据
删除企业代号为E123的数据


In [109]:
# 继续处理计算销项发票信息
# 加入每个企业的信誉评级列（A等级为1  B 等级为0.66 C等级为0.33）
rating_map = {'A': 1, 'B': 0.66, 'C': 0.33, 'D': 0}

# 将信誉评级映射到企业代号
company_info['信誉评级数值'] = company_info['信誉评级'].map(rating_map)

# 将信誉评级数值列合并到input_invoice_info中
input_invoice_info = input_invoice_info.merge(company_info[['企业代号', '信誉评级数值']], on='企业代号', how='left', suffixes=('', '_y'))

# 加入针对是否违约这一列的布尔值
rating_map2 = {'否': 0, '是': 1}
company_info['是否违约布尔值'] = company_info['是否违约'].map(rating_map2)
input_invoice_info = input_invoice_info.merge(company_info[['企业代号', '是否违约布尔值']], on='企业代号', how='left', suffixes=('', '_y'))


#加入发票是否为作废发票、是否为负数发票、是否为有效发票判断状态的列
input_invoice_info['发票状态判断'] = input_invoice_info['发票状态'].map({'有效发票': 'a', '作废发票': 'b'})

# 添加新的名为“发票判断”的列，先判断是否为负数发票，然后再判断是a还是b
input_invoice_info['发票判断'] = input_invoice_info.apply(
    lambda row: 'a' if row['发票状态判断'] == 'a' else 'b',
    axis=1
)

#负数发票判断列
input_invoice_info['负数发票判断'] = input_invoice_info['金额'].apply(lambda x: 1 if x < 0 else 0)

# 删除重复的列
input_invoice_info = input_invoice_info.loc[:, ~input_invoice_info.columns.str.endswith('_y')]
# 只保留信誉评级数值和是否违约布尔值列
input_invoice_info = input_invoice_info[['企业代号', '开票日期', '金额', '税额', '发票状态', '开票年份', '信誉评级数值', '是否违约布尔值','发票判断','负数发票判断']]

input_invoice_info.to_excel("./Data&Question/processed2_input_invoice_info.xlsx", index=False)

In [110]:
# 计算每个企业有效发票的总金额
total_amount_per_company = input_invoice_info[input_invoice_info['发票状态'] == '有效发票'].groupby('企业代号')['金额'].sum()

# 计算每个企业有效发票的开票月份数
months_count_per_company = input_invoice_info[input_invoice_info['发票状态'] == '有效发票'].groupby('企业代号')['开票日期'].nunique()

# 计算每个企业的每月平均交易金额
average_monthly_amount_per_company = total_amount_per_company / months_count_per_company

# 将结果转换为DataFrame
average_monthly_amount_per_company = average_monthly_amount_per_company.reset_index()
average_monthly_amount_per_company.columns = ['企业代号', '进项每月平均交易金额']

print(average_monthly_amount_per_company)

    企业代号  进项每月平均交易金额
0     E1  7659608.35
1    E10     6024.05
2   E104      264.15
3   E105     1239.49
4   E106     1677.84
..   ...         ...
94   E94     3512.47
95   E95      357.86
96   E96   210818.31
97   E97     2083.86
98   E98     5110.74

[99 rows x 2 columns]


In [111]:
# 计算各公司进项负数发票率
negative_invoice_rate = input_invoice_info.groupby('企业代号')['负数发票判断'].mean().reset_index()
negative_invoice_rate.columns = ['企业代号', '进项负数发票率']
# 计算各公司进项发票作废率
cancelled_invoice_rate = input_invoice_info[input_invoice_info['发票状态'] == '作废发票'].groupby('企业代号').size() / input_invoice_info.groupby('企业代号').size()
cancelled_invoice_rate = cancelled_invoice_rate.reset_index()
cancelled_invoice_rate.columns = ['企业代号', '进项发票作废率']
cancelled_invoice_rate['进项发票作废率'] = cancelled_invoice_rate['进项发票作废率'].fillna(0)  # 如果某公司没有作废发票，作废率设为0

print(cancelled_invoice_rate)



# Filter valid invoices
valid_invoices = input_invoice_info[input_invoice_info['发票状态'] == '有效发票']

# Calculate the total number of valid invoices for each company
total_valid_invoices_per_company = valid_invoices.groupby('企业代号')['开票日期'].count()

# Create a new column for the month period
valid_invoices['开票月份'] = valid_invoices['开票日期'].dt.to_period('M')

# Calculate the number of unique months each company had transactions
unique_months_per_company = valid_invoices.groupby('企业代号')['开票月份'].nunique()

# Calculate the monthly average transaction count for each company
monthly_transaction_count_corrected = total_valid_invoices_per_company / unique_months_per_company




# 将结果转换为DataFrame
monthly_transaction_count_corrected = monthly_transaction_count_corrected.reset_index()
monthly_transaction_count_corrected.columns = ['企业代号', '进项每月平均交易次数']
# Display the monthly average transaction count for each company
print(monthly_transaction_count_corrected)

    企业代号  进项发票作废率
0     E1     0.06
1    E10     0.06
2   E104     0.00
3   E105     0.00
4   E106     0.03
..   ...      ...
94   E94     0.00
95   E95     0.00
96   E96     0.00
97   E97     0.00
98   E98     0.02

[99 rows x 2 columns]
    企业代号  进项每月平均交易次数
0     E1      101.53
1    E10      110.29
2   E104        1.00
3   E105        1.20
4   E106        1.94
..   ...         ...
94   E94        1.33
95   E95        1.33
96   E96        1.57
97   E97        1.00
98   E98        2.50

[99 rows x 2 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  valid_invoices['开票月份'] = valid_invoices['开票日期'].dt.to_period('M')


In [112]:
# 合并数据
merged_df = average_monthly_amount_per_company.merge(negative_invoice_rate, on='企业代号')
merged_df = merged_df.merge(cancelled_invoice_rate, on='企业代号')
merged_df = merged_df.merge(monthly_transaction_count_corrected, on='企业代号')
merged_df = merged_df.merge(company_info[['企业代号', '信誉评级数值', '是否违约布尔值']], on='企业代号')

# 保存为新的Excel文件
merged_df.to_excel("./Data&Question/merged_data.xlsx", index=False)

## 销项发票信息处理

In [113]:
# 输出output_invoice_info表格中各列的数据
company_code2 = output_invoice_info['企业代号']

# 去除信用评级为D的企业
for company in company_info[company_info['信誉评级'] == 'D']['企业代号']:
    print(f"删除企业代号为{company}的数据")
    output_invoice_info = output_invoice_info[output_invoice_info['企业代号'] != company] 

# 删除以上文件中的发票号码、销方单位代号与价税合计列
output_invoice_info = output_invoice_info.drop(columns=['发票号码', '购方单位代号', '价税合计'])



删除企业代号为E36的数据
删除企业代号为E52的数据
删除企业代号为E82的数据
删除企业代号为E99的数据
删除企业代号为E100的数据
删除企业代号为E101的数据
删除企业代号为E102的数据
删除企业代号为E103的数据
删除企业代号为E107的数据
删除企业代号为E108的数据
删除企业代号为E109的数据
删除企业代号为E111的数据
删除企业代号为E112的数据
删除企业代号为E113的数据
删除企业代号为E114的数据
删除企业代号为E115的数据
删除企业代号为E116的数据
删除企业代号为E117的数据
删除企业代号为E118的数据
删除企业代号为E119的数据
删除企业代号为E120的数据
删除企业代号为E121的数据
删除企业代号为E122的数据
删除企业代号为E123的数据


In [115]:
# 继续处理计算销项发票信息
# 加入每个企业的信誉评级列（A等级为1  B 等级为0.66 C等级为0.33）
rating_map = {'A': 1, 'B': 0.66, 'C': 0.33, 'D': 0}

# 将信誉评级映射到企业代号
company_info['信誉评级数值'] = company_info['信誉评级'].map(rating_map)

# 将信誉评级数值列合并到output_invoice_info中
output_invoice_info = output_invoice_info.merge(company_info[['企业代号', '信誉评级数值']], on='企业代号', how='left', suffixes=('', '_y'))

# 加入针对是否违约这一列的布尔值
rating_map2 = {'否': 0, '是': 1}
company_info['是否违约布尔值'] = company_info['是否违约'].map(rating_map2)
output_invoice_info = output_invoice_info.merge(company_info[['企业代号', '是否违约布尔值']], on='企业代号', how='left', suffixes=('', '_y'))


#加入发票是否为作废发票、是否为负数发票、是否为有效发票判断状态的列
output_invoice_info['发票状态判断'] = output_invoice_info['发票状态'].map({'有效发票': 'a', '作废发票': 'b'})

# 添加新的名为“发票判断”的列，先判断是否为负数发票，然后再判断是a还是b
output_invoice_info['发票判断'] = output_invoice_info.apply(
    lambda row: 'a' if row['发票状态判断'] == 'a' else 'b',
    axis=1
)

#负数发票判断列
output_invoice_info['负数发票判断'] = output_invoice_info['金额'].apply(lambda x: 1 if x < 0 else 0)

# 删除重复的列
output_invoice_info = output_invoice_info.loc[:, ~output_invoice_info.columns.str.endswith('_y')]
# 只保留信誉评级数值和是否违约布尔值列
output_invoice_info = output_invoice_info[['企业代号', '开票日期', '金额', '税额', '发票状态', '信誉评级数值', '是否违约布尔值','发票判断','负数发票判断']]

output_invoice_info.to_excel("./Data&Question/processed2_output_invoice_info.xlsx", index=False)

In [116]:
# 计算每个企业有效发票的总金额
total_amount_per_company2 = output_invoice_info[output_invoice_info['发票状态'] == '有效发票'].groupby('企业代号')['金额'].sum()

# 计算每个企业有效发票的开票月份数
months_count_per_company2 = output_invoice_info[output_invoice_info['发票状态'] == '有效发票'].groupby('企业代号')['开票日期'].nunique()

# 计算每个企业的每月平均交易金额
average_monthly_amount_per_company2 = total_amount_per_company2 / months_count_per_company2

# 将结果转换为DataFrame
average_monthly_amount_per_company2 = average_monthly_amount_per_company2.reset_index()
average_monthly_amount_per_company2.columns = ['企业代号', '销项每月平均交易金额']

print(average_monthly_amount_per_company2)

    企业代号  销项每月平均交易金额
0     E1 12745590.29
1    E10  1812933.96
2   E104    20203.89
3   E105    30827.31
4   E106     8372.13
..   ...         ...
94   E94    16203.08
95   E95     6527.56
96   E96   359550.97
97   E97     8302.57
98   E98    15766.76

[99 rows x 2 columns]


In [117]:
# 计算各公司销项负数发票率
negative_invoice_rate2 = output_invoice_info.groupby('企业代号')['负数发票判断'].mean().reset_index()
negative_invoice_rate2.columns = ['企业代号', '销项负数发票率']
# 计算各公司销项发票作废率
cancelled_invoice_rate2 = output_invoice_info[output_invoice_info['发票状态'] == '作废发票'].groupby('企业代号').size() / output_invoice_info.groupby('企业代号').size()
cancelled_invoice_rate2 = cancelled_invoice_rate2.reset_index()
cancelled_invoice_rate2.columns = ['企业代号', '销项发票作废率']
cancelled_invoice_rate2['销项发票作废率'] = cancelled_invoice_rate2['销项发票作废率'].fillna(0)  # 如果某公司没有作废发票，作废率设为0

print(cancelled_invoice_rate2)



# Filter valid invoices
valid_invoices2 = output_invoice_info[output_invoice_info['发票状态'] == '有效发票']

# Calculate the total number of valid invoices for each company
total_valid_invoices_per_company2 = valid_invoices2.groupby('企业代号')['开票日期'].count()

# Create a new column for the month period
valid_invoices2['开票月份'] = valid_invoices2['开票日期'].dt.to_period('M')

# Calculate the number of unique months each company had transactions
unique_months_per_company2 = valid_invoices2.groupby('企业代号')['开票月份'].nunique()

# Calculate the monthly average transaction count for each company
monthly_transaction_count_corrected2 = total_valid_invoices_per_company2 / unique_months_per_company2




# 将结果转换为DataFrame
monthly_transaction_count_corrected2 = monthly_transaction_count_corrected2.reset_index()
monthly_transaction_count_corrected2.columns = ['企业代号', '销项每月平均交易次数']
# Display the monthly average transaction count for each company
print(monthly_transaction_count_corrected2)

    企业代号  销项发票作废率
0     E1     0.03
1    E10     0.09
2   E104     0.10
3   E105     0.01
4   E106     0.10
..   ...      ...
94   E94     0.09
95   E95     0.05
96   E96     0.10
97   E97     0.03
98   E98     0.13

[99 rows x 2 columns]
    企业代号  销项每月平均交易次数
0     E1      262.87
1    E10       14.74
2   E104        1.90
3   E105        5.26
4   E106        4.45
..   ...         ...
94   E94        7.42
95   E95       24.69
96   E96        4.50
97   E97       13.42
98   E98        4.29

[99 rows x 2 columns]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  valid_invoices2['开票月份'] = valid_invoices2['开票日期'].dt.to_period('M')


In [120]:
# 合并进项发票和销项发票的结果
final_merged_df = average_monthly_amount_per_company.merge(negative_invoice_rate, on='企业代号')
final_merged_df = final_merged_df.merge(cancelled_invoice_rate, on='企业代号')
final_merged_df = final_merged_df.merge(monthly_transaction_count_corrected, on='企业代号')

final_merged_df = final_merged_df.merge(average_monthly_amount_per_company2, on='企业代号', suffixes=('_进项', '_销项'))
final_merged_df = final_merged_df.merge(negative_invoice_rate2, on='企业代号')
final_merged_df = final_merged_df.merge(cancelled_invoice_rate2, on='企业代号')
final_merged_df = final_merged_df.merge(monthly_transaction_count_corrected2, on='企业代号')

# 添加信誉评级数值和是否违约布尔值列
final_merged_df = final_merged_df.merge(company_info[['企业代号', '信誉评级数值', '是否违约布尔值']], on='企业代号')

# 重命名列
final_merged_df.columns = ['企业代号', '进项每月平均交易金额', '进项负数发票率', '进项发票作废率', '进项每月平均交易次数', 
                           '销项每月平均交易金额', '销项负数发票率', '销项发票作废率', '销项每月平均交易次数', 
                           '信誉评级数值', '是否违约布尔值']

# 显示最终的合并结果
print(final_merged_df)

# 保存为新的Excel文件
final_merged_df.to_excel("./Data&Question/final_merged_data.xlsx", index=False)

    企业代号  进项每月平均交易金额  进项负数发票率  进项发票作废率  进项每月平均交易次数  销项每月平均交易金额  销项负数发票率  \
0     E1  7659608.35     0.02     0.06      101.53 12745590.29     0.03   
1    E10     6024.05     0.01     0.06      110.29  1812933.96     0.00   
2   E104      264.15     0.00     0.00        1.00    20203.89     0.05   
3   E105     1239.49     0.00     0.00        1.20    30827.31     0.03   
4   E106     1677.84     0.00     0.03        1.94     8372.13     0.03   
..   ...         ...      ...      ...         ...         ...      ...   
94   E94     3512.47     0.00     0.00        1.33    16203.08     0.05   
95   E95      357.86     0.00     0.00        1.33     6527.56     0.00   
96   E96   210818.31     0.00     0.00        1.57   359550.97     0.00   
97   E97     2083.86     0.00     0.00        1.00     8302.57     0.02   
98   E98     5110.74     0.02     0.02        2.50    15766.76     0.04   

    销项发票作废率  销项每月平均交易次数  信誉评级数值  是否违约布尔值  
0      0.03      262.87    1.00        0  
1      0.09  