## 1. 数据处理和分析

In [192]:
import pandas as pd

读取从 [UN Comtrade Database](https://comtrade.un.org/data/) 获取的 2019 年全球铜及其精炼物（2603）贸易记录，并处理：

1. 去除贸易对象为 World 的数据行
2. 并保留关心的数据列：报告者及其代码、贸易对象及代码、贸易类型、贸易额


In [230]:
resourceData = pd.read_csv('2019-world-copper-2063-trade.csv')
data = (
    resourceData[resourceData["Partner Code"] != 0]
    .loc[:, ["Reporter Code", "Reporter", "Partner Code", "Partner", "Trade Flow", "Trade Value (US$)"]]
)
data.head()

Unnamed: 0,Reporter Code,Reporter,Partner Code,Partner,Trade Flow,Trade Value (US$)
2,31,Azerbaijan,702,Singapore,Export,419159
3,31,Azerbaijan,757,Switzerland,Export,3043343
4,31,Azerbaijan,826,United Kingdom,Import,79
5,31,Azerbaijan,860,Uzbekistan,Export,17248944
6,31,Azerbaijan,899,"Areas, nes",Import,1007


抽样检查各国报告数据是否一致

In [209]:
reporters = data.loc[:, ["Reporter Code", "Reporter"]].drop_duplicates()


1. 查看中国上报的进口记录：

In [228]:
groupedDataOfImport = (data[data["Trade Flow"] == "Import"]
    .groupby("Reporter Code")
)

ChinaImportReport = groupedDataOfImport.get_group(156)

partnerNum = ChinaImportReport.shape[0]
print("中上报的进口记录中，进口对象的个数: ", partnerNum)

ChinaImportReport.head(partnerNum)

中上报的进口记录中，进口对象的个数:  56


Unnamed: 0,Reporter Code,Reporter,Partner Code,Partner,Trade Flow,Trade Value (US$)
247,156,China,8,Albania,Import,17013004
248,156,China,36,Australia,Import,1666113958
250,156,China,51,Armenia,Import,510563982
251,156,China,68,Bolivia (Plurinational State of),Import,2677980
252,156,China,76,Brazil,Import,557705819
255,156,China,100,Bulgaria,Import,50
256,156,China,104,Myanmar,Import,2850825
258,156,China,124,Canada,Import,910149220
260,156,China,152,Chile,Import,12076025483
261,156,China,170,Colombia,Import,56382455


2. 查看中国进口对象上报的对中国的出口记录

In [229]:
partnersChinaImportFrom = ChinaImportReport.loc[:,"Partner Code"]

groupedDataOfExport = (data[data["Trade Flow"] == "Export"]
    .groupby("Partner Code")
)

partnersExportToChina = groupedDataOfExport.get_group(156)

reportOfPartnersExportToChina = partnersExportToChina[partnersExportToChina["Partner Code"] == 156]

partnerNum = reportOfPartnersExportToChina.shape[0]
print("中上报的进口记录中，进口对象的个数: ", partnerNum)

reportOfPartnersExportToChina.head(partnerNum)


中上报的进口记录中，进口对象的个数:  41


Unnamed: 0,Reporter Code,Reporter,Partner Code,Partner,Trade Flow,Trade Value (US$)
13,36,Australia,156,China,Export,1585564428
36,51,Armenia,156,China,Export,174415305
68,68,Bolivia (Plurinational State of),156,China,Export,3882938
88,76,Brazil,156,China,Export,442971407
116,100,Bulgaria,156,China,Export,71216190
161,124,Canada,156,China,Export,764979617
208,152,Chile,156,China,Export,9649325301
316,170,Colombia,156,China,Export,40352028
328,204,Benin,156,China,Export,1708
334,218,Ecuador,156,China,Export,3562481


对比上面两个表格，显然各国出入口数据是**普遍**有出入的：

首先，进出口对象数量上就不一致：中国上报记录中显示，中国 2019 年共从 56 个国家进口铜资源；而只有 41 个国家（或中国港澳台地区，以下简称国家）上报了对中国出口铜资源的记录

其次，对于中国的进口对象，其上报的出口记录的贸易金额和中国上报的进口贸易金额并不一致，有的甚至出入较大

这可能是有以下的原因导致的：

1. 由于政策和统计方法不同导致的数据出入
2. 由于货物在进出口过程中经第三方国家中转，而进出口国家对于出入口的目标国家登记不一致导致
3. 其他可能原因

## 2. 构建网络

根据以上数据和分析，构建网络：

1. 以国家为节点，进出口关系为有向，构建有向无权图

2. 对于进出口关系，忽略各个国家之间上报数据的差异，即只要在任何一条记录中出现进出口关系即为他们添加边