In [1]:
import sys
import os
from pathlib import Path
current_dir = os.getcwd()  
project_root = os.path.dirname(current_dir)  
sys.path.insert(0, project_root) 
import numpy as np
import pandas as pd
from src.data.data_preprocessor import DataPreprocessor
from src.config.config import Config
data_preprocessor = DataPreprocessor()

def detect_and_remove_anomalies(df, target_col, country_col='Country Name', year_col='Year', 
                               z_threshold=2.0, ratio_threshold=2.0, 
                               min_years=3, return_anomalies=False):
    """
    检测并移除目标列中的异常值
    
    参数:
    - df: 数据框
    - target_col: 目标列名（建筑垃圾量）
    - country_col: 国家列名
    - year_col: 年份列名
    - z_threshold: Z-score阈值，超过此值视为异常
    - ratio_threshold: 比值阈值，与相邻年份比值超过此值视为异常
    - min_years: 最少需要的年份数据量，少于此值的国家不进行异常检测
    - return_anomalies: 是否返回异常值信息
    
    返回:
    - 清洗后的数据框，如果return_anomalies=True，则同时返回异常值信息
    """
    # 复制数据框，避免修改原始数据
    df_clean = df.copy()
    
    # 存储所有异常记录
    all_anomalies = pd.DataFrame()
    
    # 按国家分组处理
    for country, country_data in df_clean.groupby(country_col):
        # 如果数据量太少，跳过异常检测
        if len(country_data) < min_years:
            continue
            
        # 按年份排序
        country_data = country_data.sort_values(year_col)
        
        # 方法1: 基于Z-score的异常检测
        z_scores = np.abs((country_data[target_col] - country_data[target_col].mean()) / country_data[target_col].std())
        z_anomalies = country_data[z_scores > z_threshold].index
        
        # 方法2: 基于相邻年份比值的异常检测
        country_data_sorted = country_data.sort_values(year_col)
        
        # 计算与前一年的比值
        prev_ratios = country_data_sorted[target_col] / country_data_sorted[target_col].shift(1)
        # 计算与后一年的比值
        next_ratios = country_data_sorted[target_col] / country_data_sorted[target_col].shift(-1)
        
        # 找出异常记录
        ratio_anomalies = country_data_sorted[
            ((prev_ratios > ratio_threshold) | (prev_ratios < 1/ratio_threshold)) & 
            ((next_ratios > ratio_threshold) | (next_ratios < 1/ratio_threshold))
        ].index
        
        # 方法3: 考虑年份间隔的异常检测
        # 计算年份间隔
        year_gaps = country_data_sorted[year_col].diff()
        # 调整比值阈值，根据年份间隔
        adjusted_ratios = prev_ratios / year_gaps
        gap_anomalies = country_data_sorted[
            (adjusted_ratios > ratio_threshold) & (year_gaps > 1)
        ].index
        
        # 综合多种方法，确定最终的异常值
        # 至少满足两种方法判定为异常的记录
        anomaly_indices = list(set(z_anomalies) | set(ratio_anomalies) | set(gap_anomalies))
        
        if anomaly_indices and return_anomalies:
            # 收集异常记录信息
            anomalies = country_data.loc[anomaly_indices].copy()
            anomalies['z_score'] = z_scores.loc[anomaly_indices]
            anomalies['prev_ratio'] = prev_ratios.loc[anomaly_indices]
            anomalies['next_ratio'] = next_ratios.loc[anomaly_indices]
            anomalies['year_gap'] = year_gaps.loc[anomaly_indices]
            all_anomalies = pd.concat([all_anomalies, anomalies])
        
        # 从清洗数据中移除异常值
        df_clean = df_clean.drop(anomaly_indices)
    
    if return_anomalies:
        return df_clean, all_anomalies
    else:
        return df_clean

In [2]:
"""加载1990-2022数据"""
historical_df = pd.read_excel(
    Config.FEATURE_CONFIG['historical_data_path'],
    sheet_name=Config.FEATURE_CONFIG['historical_sheet'],
    usecols=Config.FEATURE_CONFIG['usecols'] 
)

"""执行完整处理流程"""
# 第一阶段：处理历史数据
all_countries_df = data_preprocessor.process_historical_data(historical_df)
features_path = Path(Config.PATH_CONFIG['features_dir']) / 'global_features.csv'
all_countries_df.to_csv(features_path, index=False)

In [3]:
# 第二阶段：处理MSW数据
"""加载包含MSW的目标数据"""
msw_df = pd.read_excel(
    Config.FEATURE_CONFIG['historical_msw_data_path'],
    sheet_name=Config.FEATURE_CONFIG['historical_msw_sheet'],
    usecols=Config.FEATURE_CONFIG['usecols'] + [Config.DATA_CONFIG['target_column']]
)

# 先检测异常值但不移除，查看异常值情况
target_col = Config.DATA_CONFIG['target_column']
_, anomalies = detect_and_remove_anomalies(msw_df, target_col, return_anomalies=True)
print(f"检测到 {len(anomalies)} 条异常记录:")
print(f"检测到 {len(anomalies)} 条异常记录:")
if len(anomalies) > 0:
    display(anomalies.sort_values(['Country Name', 'Year']))
else:
    print("没有检测到异常记录")

# 分析每个国家数据的分布情况
print("\n===== 各国数据分布情况分析 =====")
for country, country_data in msw_df.groupby('Country Name'):
    if len(country_data) < 3:  # 跳过数据量太少的国家
        continue
        
    country_data = country_data.sort_values('Year')
    
    # 计算Z-score
    z_scores = np.abs((country_data[target_col] - country_data[target_col].mean()) / country_data[target_col].std())
    
    # 计算年度增长比例
    growth_ratios = country_data[target_col].pct_change()
    
    print(f"\n国家: {country}, 数据点数: {len(country_data)}")
    print(f"平均值: {country_data[target_col].mean():.2f}, 标准差: {country_data[target_col].std():.2f}")
    print(f"最大Z-score: {z_scores.max():.2f}")
    print(f"最大年度增长率: {growth_ratios.max():.2%}")
    print(f"最小年度增长率: {growth_ratios.min():.2%}")
    
    # 显示可能的异常点
    potential_anomalies = country_data[(z_scores > 2.0) | (growth_ratios > 0.5) | (growth_ratios < -0.3)]
    if len(potential_anomalies) > 0:
        print("潜在异常点:")
        display(potential_anomalies[['Year', target_col]])


检测到 131 条异常记录:
检测到 131 条异常记录:


Unnamed: 0,Year,Country Name,Population,GDP PPP 2017,GDP PPP/capita 2017,Urban population %,Region,Income Group,CW,z_score,prev_ratio,next_ratio,year_gap
20,1999,Albania,3108778,1.702018e+10,5474.88,41.169,Europe & Central Asia,Upper middle income,6.200685e+05,2.412861,,0.779770,
182,2009,Aruba,99212,3.634069e+09,36629.33,43.421,Latin America & Caribbean,High income,1.489156e+05,2.872538,1.326175,2.503745,1.0
183,2010,Aruba,100341,3.534733e+09,35227.21,43.059,Latin America & Caribbean,High income,5.947713e+04,2.618311,0.399402,0.607011,1.0
264,1995,Azerbaijan,7684850,2.287776e+10,2977.00,52.206,Europe & Central Asia,Upper middle income,2.071237e+05,1.522800,0.451317,0.278198,1.0
265,1996,Azerbaijan,7763000,2.317517e+10,2985.34,51.896,Europe & Central Asia,Upper middle income,7.445200e+05,0.934773,3.594567,3.190902,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
4841,2022,United Arab Emirates,9441129,7.073074e+11,74917.67,87.543,Middle East & North Africa,High income,1.410635e+07,2.016407,1.062746,,1.0
4940,1992,Uzbekistan,21449000,6.594836e+10,3074.66,42.308,Europe & Central Asia,Lower middle income,1.355550e+06,2.154742,0.337496,0.516833,1.0
4969,2021,Uzbekistan,34915100,2.723553e+11,7800.50,50.427,Europe & Central Asia,Lower middle income,6.290539e+06,2.118646,1.149347,0.960819,1.0
4970,2022,Uzbekistan,35648100,2.877946e+11,8073.21,50.466,Europe & Central Asia,Lower middle income,6.547060e+06,2.340778,1.040779,,1.0



===== 各国数据分布情况分析 =====

国家: Afghanistan, 数据点数: 20
平均值: 2402640.60, 标准差: 538450.40
最大Z-score: 1.58
最大年度增长率: 19.45%
最小年度增长率: -23.12%

国家: Albania, 数据点数: 21
平均值: 1036434.87, 标准差: 172561.27
最大Z-score: 2.41
最大年度增长率: 28.24%
最小年度增长率: -0.54%
潜在异常点:


Unnamed: 0,Year,CW
20,1999,620068.4863



国家: Algeria, 数据点数: 33
平均值: 7302317.82, 标准差: 1270021.95
最大Z-score: 1.69
最大年度增长率: 13.04%
最小年度增长率: -10.77%

国家: Angola, 数据点数: 33
平均值: 5155324.79, 标准差: 1676727.26
最大Z-score: 1.50
最大年度增长率: 10.32%
最小年度增长率: -16.62%

国家: Argentina, 数据点数: 31
平均值: 14411618.23, 标准差: 3872458.93
最大Z-score: 1.83
最大年度增长率: 72.05%
最小年度增长率: -52.42%
潜在异常点:


Unnamed: 0,Year,CW
117,2000,8809953.0
119,2004,7690115.0
120,2005,13230600.0
125,2010,13101240.0



国家: Armenia, 数据点数: 25
平均值: 532293.10, 标准差: 179063.09
最大Z-score: 1.89
最大年度增长率: 64.26%
最小年度增长率: -55.07%
潜在异常点:


Unnamed: 0,Year,CW
149,2009,870674.4364
150,2010,391221.6564



国家: Aruba, 数据点数: 32
平均值: 102125.85, 标准差: 16288.64
最大Z-score: 2.87
最大年度增长率: 64.74%
最小年度增长率: -60.06%
潜在异常点:


Unnamed: 0,Year,CW
182,2009,148915.5806
183,2010,59477.13232
184,2011,97983.59314



国家: Australia, 数据点数: 33
平均值: 11122421.70, 标准差: 3429790.58
最大Z-score: 1.82
最大年度增长率: 29.85%
最小年度增长率: -27.89%

国家: Austria, 数据点数: 33
平均值: 7843648.06, 标准差: 1550789.25
最大Z-score: 1.63
最大年度增长率: 21.82%
最小年度增长率: -27.17%

国家: Azerbaijan, 数据点数: 30
平均值: 1598806.21, 标准差: 913896.95
最大Z-score: 1.52
最大年度增长率: 259.46%
最小年度增长率: -68.66%
潜在异常点:


Unnamed: 0,Year,CW
263,1994,458932.1146
264,1995,207123.6885
265,1996,744519.9646
266,1997,233325.883
267,1998,628842.3234



国家: Bahamas, The, 数据点数: 33
平均值: 361409.80, 标准差: 47800.41
最大Z-score: 3.77
最大年度增长率: 60.35%
最小年度增长率: -58.31%
潜在异常点:


Unnamed: 0,Year,CW
310,2009,541647.1936
311,2010,225833.9911
312,2011,362132.4367



国家: Bahrain, 数据点数: 31
平均值: 865443.09, 标准差: 342764.55
最大Z-score: 1.95
最大年度增长率: 125.48%
最小年度增长率: -53.70%
潜在异常点:


Unnamed: 0,Year,CW
332,1998,377304.997
333,1999,850736.122
344,2012,629399.003
346,2014,1142013.771



国家: Bangladesh, 数据点数: 33
平均值: 22215949.63, 标准差: 7272209.69
最大Z-score: 2.29
最大年度增长率: 7.12%
最小年度增长率: 0.85%
潜在异常点:


Unnamed: 0,Year,CW
387,2022,38865013.68



国家: Barbados, 数据点数: 33
平均值: 124392.31, 标准差: 15815.37
最大Z-score: 4.36
最大年度增长率: 58.28%
最小年度增长率: -59.91%
潜在异常点:


Unnamed: 0,Year,CW
407,2009,193419.9459
408,2010,77544.07367
409,2011,122736.4808



国家: Belarus, 数据点数: 14
平均值: 5543513.07, 标准差: 1226100.12
最大Z-score: 1.98
最大年度增长率: 62.74%
最小年度增长率: -40.86%
潜在异常点:


Unnamed: 0,Year,CW
427,2015,3449135.792
428,2016,5613089.639



国家: Belgium, 数据点数: 33
平均值: 9402871.94, 标准差: 1915388.12
最大Z-score: 1.62
最大年度增长率: 24.03%
最小年度增长率: -26.43%

国家: Belize, 数据点数: 33
平均值: 75874.81, 标准差: 20737.12
最大Z-score: 2.26
最大年度增长率: 59.21%
最小年度增长率: -58.42%
潜在异常点:


Unnamed: 0,Year,CW
487,2009,122705.0014
488,2010,51018.42926
489,2011,81225.16485



国家: Benin, 数据点数: 33
平均值: 807152.80, 标准差: 230319.05
最大Z-score: 2.52
最大年度增长率: 11.24%
最小年度增长率: -1.47%
潜在异常点:


Unnamed: 0,Year,CW
532,2021,1315351.127
533,2022,1387668.017



国家: Bhutan, 数据点数: 32
平均值: 207666.12, 标准差: 80231.07
最大Z-score: 1.53
最大年度增长率: 14.59%
最小年度增长率: -7.71%

国家: Bolivia, 数据点数: 30
平均值: 1108753.06, 标准差: 478532.47
最大Z-score: 1.81
最大年度增长率: 65.04%
最小年度增长率: -35.25%
潜在异常点:


Unnamed: 0,Year,CW
577,2004,563192.4767
578,2005,929518.6425
583,2010,907413.6783



国家: Bosnia and Herzegovina, 数据点数: 21
平均值: 1399414.18, 标准差: 144745.36
最大Z-score: 3.30
最大年度增长率: 35.22%
最小年度增长率: -0.74%
潜在异常点:


Unnamed: 0,Year,CW
596,1999,921673.0954



国家: Botswana, 数据点数: 33
平均值: 962302.02, 标准差: 192166.37
最大Z-score: 2.40
最大年度增长率: 11.79%
最小年度增长率: -13.75%
潜在异常点:


Unnamed: 0,Year,CW
617,1990,563755.4
648,2021,1352678.0
649,2022,1422722.0



国家: Brazil, 数据点数: 31
平均值: 38451540.61, 标准差: 16971316.88
最大Z-score: 1.73
最大年度增长率: 125.66%
最小年度增长率: -49.94%
潜在异常点:


Unnamed: 0,Year,CW
653,1994,14946528.83
655,1996,25285464.41
657,1998,65148937.9
659,2000,28430617.31
661,2002,53740878.16
664,2005,35178676.17
672,2014,59412039.81
673,2015,37630778.44



国家: Brunei Darussalam, 数据点数: 33
平均值: 705379.96, 标准差: 69902.66
最大Z-score: 1.91
最大年度增长率: 8.64%
最小年度增长率: -4.98%

国家: Bulgaria, 数据点数: 22
平均值: 4410686.50, 标准差: 689270.38
最大Z-score: 2.99
最大年度增长率: 106.35%
最小年度增长率: -49.44%
潜在异常点:


Unnamed: 0,Year,CW
714,1999,2989302.181
724,2011,2351542.748
725,2012,4852362.087



国家: Burkina Faso, 数据点数: 33
平均值: 820077.66, 标准差: 312402.12
最大Z-score: 2.11
最大年度增长率: 12.04%
最小年度增长率: -1.74%
潜在异常点:


Unnamed: 0,Year,CW
767,2021,1467848.292
768,2022,1478973.23



国家: Burundi, 数据点数: 33
平均值: 284404.92, 标准差: 30437.20
最大Z-score: 2.71
最大年度增长率: 6.63%
最小年度增长率: -10.83%
潜在异常点:


Unnamed: 0,Year,CW
770,1991,356927.503
771,1992,366746.1605



国家: Cabo Verde, 数据点数: 33
平均值: 89344.14, 标准差: 32113.74
最大Z-score: 1.97
最大年度增长率: 22.94%
最小年度增长率: -16.15%

国家: Cambodia, 数据点数: 30
平均值: 978004.70, 标准差: 412019.72
最大Z-score: 1.85
最大年度增长率: 13.18%
最小年度增长率: -37.36%
潜在异常点:


Unnamed: 0,Year,CW
836,1994,411292.5617



国家: Cameroon, 数据点数: 33
平均值: 2126336.83, 标准差: 462313.74
最大Z-score: 2.22
最大年度增长率: 7.10%
最小年度增长率: -3.23%
潜在异常点:


Unnamed: 0,Year,CW
896,2021,3066650.102
897,2022,3152667.463



国家: Canada, 数据点数: 33
平均值: 30364514.80, 标准差: 7320502.58
最大Z-score: 1.75
最大年度增长率: 19.49%
最小年度增长率: -22.42%

国家: Central African Republic, 数据点数: 33
平均值: 147177.74, 标准差: 19902.99
最大Z-score: 2.09
最大年度增长率: 8.21%
最小年度增长率: -38.31%
潜在异常点:


Unnamed: 0,Year,CW
954,2013,108544.7443
955,2014,105672.5601



国家: Chad, 数据点数: 33
平均值: 522953.42, 标准差: 192369.22
最大Z-score: 1.49
最大年度增长率: 27.37%
最小年度增长率: -11.40%

国家: Chile, 数据点数: 31
平均值: 5660633.91, 标准差: 2339246.87
最大Z-score: 1.85
最大年度增长率: 67.28%
最小年度增长率: -49.65%
潜在异常点:


Unnamed: 0,Year,CW
1006,1999,6030331.514
1007,2000,3036073.225
1008,2001,4580685.537
1009,2004,3118232.778
1010,2005,5216243.437
1015,2010,4928551.986



国家: China, 数据点数: 33
平均值: 1815082319.98, 标准差: 913895787.92
最大Z-score: 1.86
最大年度增长率: 7.86%
最小年度增长率: 3.18%

国家: Colombia, 数据点数: 31
平均值: 8826200.16, 标准差: 3362631.74
最大Z-score: 2.13
最大年度增长率: 65.69%
最小年度增长率: -50.63%
潜在异常点:


Unnamed: 0,Year,CW
1071,2000,4597357.0
1073,2004,4529475.0
1074,2005,7504814.0
1079,2010,7276754.0
1091,2022,15975110.0



国家: Comoros, 数据点数: 33
平均值: 74679.42, 标准差: 6073.32
最大Z-score: 1.94
最大年度增长率: 10.40%
最小年度增长率: -4.33%

国家: Congo, Dem. Rep., 数据点数: 33
平均值: 2058877.75, 标准差: 512546.19
最大Z-score: 2.60
最大年度增长率: 8.15%
最小年度增长率: -9.05%
潜在异常点:


Unnamed: 0,Year,CW
1156,2021,3136988.942
1157,2022,3392657.596



国家: Costa Rica, 数据点数: 33
平均值: 2021820.13, 标准差: 685065.14
最大Z-score: 1.77
最大年度增长率: 66.39%
最小年度增长率: -56.74%
潜在异常点:


Unnamed: 0,Year,CW
1178,2010,1357484.531
1179,2011,2258764.171



国家: Croatia, 数据点数: 21
平均值: 3673198.53, 标准差: 243827.97
最大Z-score: 3.18
最大年度增长率: 23.46%
最小年度增长率: -7.63%
潜在异常点:


Unnamed: 0,Year,CW
1191,1999,2898286.039



国家: Cyprus, 数据点数: 21
平均值: 1452308.44, 标准差: 109525.75
最大Z-score: 3.52
最大年度增长率: 27.97%
最小年度增长率: -5.08%
潜在异常点:


Unnamed: 0,Year,CW
1212,1999,1066443.962



国家: Czechia, 数据点数: 21
平均值: 12198302.23, 标准差: 978960.15
最大Z-score: 3.30
最大年度增长率: 24.71%
最小年度增长率: -1.43%
潜在异常点:


Unnamed: 0,Year,CW
1233,1999,8972430.84



国家: Denmark, 数据点数: 33
平均值: 5310819.98, 标准差: 982253.44
最大Z-score: 1.81
最大年度增长率: 20.37%
最小年度增长率: -27.14%

国家: Djibouti, 数据点数: 10
平均值: 152912.45, 标准差: 17721.01
最大Z-score: 1.48
最大年度增长率: 4.91%
最小年度增长率: 1.97%

国家: Dominican Republic, 数据点数: 33
平均值: 3306831.16, 标准差: 1394152.26
最大Z-score: 2.05
最大年度增长率: 64.37%
最小年度增长率: -55.51%
潜在异常点:


Unnamed: 0,Year,CW
1316,2009,4908635.862
1317,2010,2183689.093
1318,2011,3589323.463
1329,2022,6164420.983



国家: Ecuador, 数据点数: 31
平均值: 2516912.30, 标准差: 832502.14
最大Z-score: 1.60
最大年度增长率: 66.42%
最小年度增长率: -51.51%
潜在异常点:


Unnamed: 0,Year,CW
1340,2000,1330163.666
1341,2001,2023651.394
1342,2004,1382596.721
1343,2005,2300910.123
1348,2010,2119768.81



国家: Egypt, Arab Rep., 数据点数: 33
平均值: 15783407.44, 标准差: 4862272.83
最大Z-score: 2.24
最大年度增长率: 11.80%
最小年度增长率: -8.30%
潜在异常点:


Unnamed: 0,Year,CW
1393,2022,26666988.0



国家: El Salvador, 数据点数: 33
平均值: 1306355.89, 标准差: 226097.63
最大Z-score: 2.65
最大年度增长率: 65.44%
最小年度增长率: -58.07%
潜在异常点:


Unnamed: 0,Year,CW
1413,2009,1904768.0
1414,2010,798626.9
1415,2011,1321273.0



国家: Equatorial Guinea, 数据点数: 33
平均值: 626249.99, 标准差: 414863.84
最大Z-score: 1.47
最大年度增长率: 147.77%
最小年度增长率: -12.12%
潜在异常点:


Unnamed: 0,Year,CW
1433,1996,65584.70635
1434,1997,162501.4715
1438,2001,479440.8999



国家: Estonia, 数据点数: 21
平均值: 1337245.46, 标准差: 166023.05
最大Z-score: 3.11
最大年度增长率: 32.01%
最小年度增长率: -7.54%
潜在异常点:


Unnamed: 0,Year,CW
1460,1999,821298.8606



国家: Eswatini, 数据点数: 33
平均值: 277166.39, 标准差: 40558.30
最大Z-score: 2.60
最大年度增长率: 13.10%
最小年度增长率: -2.75%
潜在异常点:


Unnamed: 0,Year,CW
1481,1990,192248.1235
1482,1991,195362.0145
1512,2021,370185.6793
1513,2022,382479.7884



国家: Ethiopia, 数据点数: 33
平均值: 4096773.29, 标准差: 2366943.75
最大Z-score: 2.21
最大年度增长率: 12.15%
最小年度增长率: -7.10%
潜在异常点:


Unnamed: 0,Year,CW
1545,2021,8942048.535
1546,2022,9323091.703



国家: Fiji, 数据点数: 33
平均值: 109413.65, 标准差: 24033.88
最大Z-score: 1.90
最大年度增长率: 26.83%
最小年度增长率: -23.82%

国家: Finland, 数据点数: 33
平均值: 4308194.98, 标准差: 934452.95
最大Z-score: 1.61
最大年度增长率: 19.87%
最小年度增长率: -26.20%

国家: France, 数据点数: 33
平均值: 50014615.53, 标准差: 8836389.10
最大Z-score: 1.55
最大年度增长率: 22.95%
最小年度增长率: -27.09%

国家: Gabon, 数据点数: 33
平均值: 854881.56, 标准差: 90305.88
最大Z-score: 1.91
最大年度增长率: 9.26%
最小年度增长率: -7.60%

国家: Georgia, 数据点数: 28
平均值: 711264.51, 标准差: 229937.73
最大Z-score: 2.20
最大年度增长率: 73.89%
最小年度增长率: -56.62%
潜在异常点:


Unnamed: 0,Year,CW
1680,1991,968679.3
1681,1993,420170.7
1706,2022,1216966.0



国家: Germany, 数据点数: 33
平均值: 72707379.21, 标准差: 11848575.41
最大Z-score: 1.68
最大年度增长率: 21.48%
最小年度增长率: -25.49%

国家: Ghana, 数据点数: 33
平均值: 3039701.26, 标准差: 1186772.46
最大Z-score: 2.14
最大年度增长率: 11.83%
最小年度增长率: -1.60%
潜在异常点:


Unnamed: 0,Year,CW
1771,2021,5437390.569
1772,2022,5573640.657



国家: Greece, 数据点数: 33
平均值: 6173168.03, 标准差: 1005842.16
最大Z-score: 3.16
最大年度增长率: 21.14%
最小年度增长率: -32.40%
潜在异常点:


Unnamed: 0,Year,CW
1792,2009,9346906.499
1793,2010,6318445.434



国家: Grenada, 数据点数: 33
平均值: 40123.47, 标准差: 8763.65
最大Z-score: 2.43
最大年度增长率: 60.59%
最小年度增长率: -59.15%
潜在异常点:


Unnamed: 0,Year,CW
1825,2009,61455.54571
1826,2010,25106.03117
1827,2011,40318.9448



国家: Guatemala, 数据点数: 33
平均值: 2872166.98, 标准差: 847459.06
最大Z-score: 1.94
最大年度增长率: 66.01%
最小年度增长率: -57.75%
潜在异常点:


Unnamed: 0,Year,CW
1858,2009,4363157.891
1859,2010,1843283.209
1860,2011,3060072.304



国家: Guinea, 数据点数: 33
平均值: 660608.80, 标准差: 188326.78
最大Z-score: 2.50
最大年度增长率: 13.54%
最小年度增长率: -3.81%
潜在异常点:


Unnamed: 0,Year,CW
1902,2020,1056974.035
1903,2021,1088630.578
1904,2022,1131693.669



国家: Guinea-Bissau, 数据点数: 33
平均值: 93242.68, 标准差: 12215.57
最大Z-score: 2.12
最大年度增长率: 10.02%
最小年度增长率: -28.38%
潜在异常点:


Unnamed: 0,Year,CW
1912,1997,119185.855
1937,2022,118168.4871



国家: Guyana, 数据点数: 31
平均值: 143127.64, 标准差: 98513.45
最大Z-score: 4.11
最大年度增长率: 62.21%
最小年度增长率: -52.69%
潜在异常点:


Unnamed: 0,Year,CW
1947,1999,157464.3525
1948,2000,74493.38602
1950,2004,67157.75478
1951,2005,104076.13
1956,2010,100417.6027
1966,2020,310344.2822
1967,2021,350796.7669
1968,2022,547707.7116



国家: Haiti, 数据点数: 33
平均值: 851856.06, 标准差: 131429.93
最大Z-score: 3.54
最大年度增长率: 67.50%
最小年度增长率: -61.26%
潜在异常点:


Unnamed: 0,Year,CW
1988,2009,1317769.0
1989,2010,510524.9
1990,2011,855134.9



国家: Honduras, 数据点数: 33
平均值: 1086008.76, 标准差: 331818.18
最大Z-score: 1.82
最大年度增长率: 65.49%
最小年度增长率: -57.41%
潜在异常点:


Unnamed: 0,Year,CW
2022,2010,713302.1
2023,2011,1180436.0



国家: Hungary, 数据点数: 21
平均值: 9116238.72, 标准差: 614910.19
最大Z-score: 3.59
最大年度增长率: 25.28%
最小年度增长率: -4.31%
潜在异常点:


Unnamed: 0,Year,CW
2035,1999,6910609.747



国家: Iceland, 数据点数: 28
平均值: 296294.37, 标准差: 78872.51
最大Z-score: 1.61
最大年度增长率: 19.05%
最小年度增长率: -30.51%
潜在异常点:


Unnamed: 0,Year,CW
2071,2010,254507.02



国家: India, 数据点数: 33
平均值: 148428788.83, 标准差: 38606355.97
最大Z-score: 2.01
最大年度增长率: 3.29%
最小年度增长率: 2.44%
潜在异常点:


Unnamed: 0,Year,CW
2116,2022,226166970.8



国家: Indonesia, 数据点数: 31
平均值: 19815799.51, 标准差: 5411262.23
最大Z-score: 1.90
最大年度增长率: 5.74%
最小年度增长率: 2.70%

国家: Iran, Islamic Rep., 数据点数: 30
平均值: 17851321.59, 标准差: 4660802.31
最大Z-score: 2.02
最大年度增长率: 70.44%
最小年度增长率: -38.75%
潜在异常点:


Unnamed: 0,Year,CW
2167,2012,12088682.14
2169,2014,20615117.25
2177,2022,27259484.82



国家: Iraq, 数据点数: 29
平均值: 4425460.28, 标准差: 2249323.13
最大Z-score: 1.69
最大年度增长率: 154.19%
最小年度增长率: -37.20%
潜在异常点:


Unnamed: 0,Year,CW
2185,1999,5045543.392
2189,2003,2562136.598
2198,2014,5991627.984



国家: Ireland, 数据点数: 33
平均值: 4867631.40, 标准差: 2620930.38
最大Z-score: 2.62
最大年度增长率: 23.51%
最小年度增长率: -27.28%
潜在异常点:


Unnamed: 0,Year,CW
2238,2021,10657411.61
2239,2022,11745168.48



国家: Israel, 数据点数: 26
平均值: 4825149.91, 标准差: 1652310.06
最大Z-score: 2.23
最大年度增长率: 123.38%
最小年度增长率: -54.00%
潜在异常点:


Unnamed: 0,Year,CW
2243,1998,2154054.841
2244,1999,4811752.355
2255,2012,3048836.648
2257,2014,5456772.424
2265,2022,8509100.825



国家: Italy, 数据点数: 33
平均值: 46779587.94, 标准差: 4430448.53
最大Z-score: 2.67
最大年度增长率: 19.90%
最小年度增长率: -27.26%
潜在异常点:


Unnamed: 0,Year,CW
2285,2009,58624205.01



国家: Jamaica, 数据点数: 33
平均值: 793321.75, 标准差: 89951.47
最大Z-score: 4.02
最大年度增长率: 62.13%
最小年度增长率: -59.54%
潜在异常点:


Unnamed: 0,Year,CW
2318,2009,1154810.0
2319,2010,467281.3
2320,2011,757619.9



国家: Japan, 数据点数: 33
平均值: 103623944.32, 标准差: 19921903.47
最大Z-score: 1.89
最大年度增长率: 28.95%
最小年度增长率: -30.71%
潜在异常点:


Unnamed: 0,Year,CW
2352,2010,97871918.98



国家: Jordan, 数据点数: 30
平均值: 1249184.62, 标准差: 465773.43
最大Z-score: 1.86
最大年度增长率: 67.84%
最小年度增长率: -36.91%
潜在异常点:


Unnamed: 0,Year,CW
2384,2012,930557.5
2386,2014,1628274.0



国家: Kazakhstan, 数据点数: 33
平均值: 8655484.95, 标准差: 1991583.54
最大Z-score: 2.43
最大年度增长率: 79.82%
最小年度增长率: -64.01%
潜在异常点:


Unnamed: 0,Year,CW
2396,1991,10603770.0
2397,1992,3816502.0
2398,1993,6862883.0
2399,1994,12204310.0
2400,1995,6913760.0
2402,1997,4643910.0



国家: Kenya, 数据点数: 33
平均值: 5742794.62, 标准差: 1097914.35
最大Z-score: 2.39
最大年度增长率: 6.10%
最小年度增长率: -3.39%
潜在异常点:


Unnamed: 0,Year,CW
2459,2021,8063399.077
2460,2022,8369445.935



国家: Kiribati, 数据点数: 33
平均值: 2462.42, 标准差: 476.08
最大Z-score: 2.05
最大年度增长率: 30.35%
最小年度增长率: -27.57%
潜在异常点:


Unnamed: 0,Year,CW
2493,2022,3437.538142



国家: Korea, Rep., 数据点数: 31
平均值: 30445856.28, 标准差: 9963469.42
最大Z-score: 1.68
最大年度增长率: 32.36%
最小年度增长率: -34.81%
潜在异常点:


Unnamed: 0,Year,CW
2512,2010,27015879.8



国家: Kyrgyz Republic, 数据点数: 33
平均值: 667663.67, 标准差: 134148.98
最大Z-score: 3.43
最大年度增长率: 75.54%
最小年度增长率: -67.25%
潜在异常点:


Unnamed: 0,Year,CW
2526,1991,1127716.0
2527,1992,369293.6
2528,1993,618290.7
2529,1994,1005346.0
2530,1995,586753.3



国家: Lao PDR, 数据点数: 33
平均值: 736611.78, 标准差: 331015.60
最大Z-score: 1.92
最大年度增长率: 12.41%
最小年度增长率: 0.05%

国家: Latvia, 数据点数: 21
平均值: 1691567.85, 标准差: 209068.56
最大Z-score: 3.02
最大年度增长率: 26.72%
最小年度增长率: -7.13%
潜在异常点:


Unnamed: 0,Year,CW
2591,1999,1060247.71



国家: Lebanon, 数据点数: 29
平均值: 1316355.46, 标准差: 404209.32
最大Z-score: 1.92
最大年度增长率: 66.38%
最小年度增长率: -34.54%
潜在异常点:


Unnamed: 0,Year,CW
2631,2012,1067752.163
2633,2014,1874053.388



国家: Lesotho, 数据点数: 33
平均值: 161780.35, 标准差: 18527.22
最大Z-score: 3.10
最大年度增长率: 13.82%
最小年度增长率: -2.73%
潜在异常点:


Unnamed: 0,Year,CW
2641,1990,104428.3414
2642,1991,111549.0592



国家: Liberia, 数据点数: 23
平均值: 196802.61, 标准差: 28429.47
最大Z-score: 1.83
最大年度增长率: 6.64%
最小年度增长率: -31.97%
潜在异常点:


Unnamed: 0,Year,CW
2677,2003,147995.3546



国家: Libya, 数据点数: 24
平均值: 2994540.73, 标准差: 567233.25
最大Z-score: 1.71
最大年度增长率: 70.60%
最小年度增长率: -45.44%
潜在异常点:


Unnamed: 0,Year,CW
2709,2011,2034006.51
2710,2012,3470108.111



国家: Lithuania, 数据点数: 21
平均值: 2800537.12, 标准差: 417944.42
最大Z-score: 2.63
最大年度增长率: 24.34%
最小年度增长率: -1.57%
潜在异常点:


Unnamed: 0,Year,CW
2721,1999,1702448.329



国家: Luxembourg, 数据点数: 33
平均值: 1003142.79, 标准差: 324780.76
最大Z-score: 1.61
最大年度增长率: 22.49%
最小年度增长率: -25.79%

国家: Madagascar, 数据点数: 33
平均值: 1230668.28, 标准差: 95163.11
最大Z-score: 1.90
最大年度增长率: 8.65%
最小年度增长率: -12.02%

国家: Malawi, 数据点数: 33
平均值: 664455.59, 标准差: 171782.07
最大Z-score: 2.21
最大年度增长率: 20.32%
最小年度增长率: -9.06%
潜在异常点:


Unnamed: 0,Year,CW
2838,2020,1016691.885
2839,2021,1039709.727
2840,2022,1043317.973



国家: Malaysia, 数据点数: 33
平均值: 14256651.26, 标准差: 3892796.52
最大Z-score: 1.99
最大年度增长率: 7.09%
最小年度增长率: 0.16%

国家: Maldives, 数据点数: 28
平均值: 273955.79, 标准差: 61515.92
最大Z-score: 2.02
最大年度增长率: 37.42%
最小年度增长率: -31.80%
潜在异常点:


Unnamed: 0,Year,CW
2899,2020,258075.2981
2901,2022,398342.5975



国家: Mali, 数据点数: 33
平均值: 930612.69, 标准差: 265471.44
最大Z-score: 1.98
最大年度增长率: 14.79%
最小年度增长率: -3.19%

国家: Malta, 数据点数: 33
平均值: 257775.52, 标准差: 118448.00
最大Z-score: 2.18
最大年度增长率: 25.15%
最小年度增长率: -24.52%
潜在异常点:


Unnamed: 0,Year,CW
2967,2022,515418.5097



国家: Mauritania, 数据点数: 33
平均值: 540078.77, 标准差: 102128.10
最大Z-score: 2.34
最大年度增长率: 15.50%
最小年度增长率: -4.89%
潜在异常点:


Unnamed: 0,Year,CW
2999,2021,746314.8202
3000,2022,779541.9323



国家: Mauritius, 数据点数: 33
平均值: 745149.14, 标准差: 139066.55
最大Z-score: 2.10
最大年度增长率: 8.35%
最小年度增长率: -12.26%
潜在异常点:


Unnamed: 0,Year,CW
3001,1990,452830.2834



国家: Mexico, 数据点数: 28
平均值: 49021185.34, 标准差: 14983260.03
最大Z-score: 1.67
最大年度增长率: 57.18%
最小年度增长率: -28.37%
潜在异常点:


Unnamed: 0,Year,CW
3040,1998,37955840.98



国家: Moldova, 数据点数: 13
平均值: 995027.81, 标准差: 248772.54
最大Z-score: 1.95
最大年度增长率: 21.30%
最小年度增长率: -4.58%

国家: Mongolia, 数据点数: 33
平均值: 3852793.87, 标准差: 1037534.67
最大Z-score: 1.76
最大年度增长率: 12.93%
最小年度增长率: -15.31%

国家: Morocco, 数据点数: 33
平均值: 3971264.39, 标准差: 984226.30
最大Z-score: 1.75
最大年度增长率: 15.89%
最小年度增长率: -12.10%

国家: Mozambique, 数据点数: 33
平均值: 767977.54, 标准差: 347516.35
最大Z-score: 1.90
最大年度增长率: 21.32%
最小年度增长率: -1.91%

国家: Myanmar, 数据点数: 33
平均值: 2921329.00, 标准差: 1700680.21
最大Z-score: 1.92
最大年度增长率: 14.35%
最小年度增长率: -17.45%

国家: Namibia, 数据点数: 33
平均值: 643866.90, 标准差: 120281.36
最大Z-score: 2.10
最大年度增长率: 14.07%
最小年度增长率: -2.72%
潜在异常点:


Unnamed: 0,Year,CW
3207,1990,390679.3039



国家: Nepal, 数据点数: 33
平均值: 3187340.92, 标准差: 606480.50
最大Z-score: 2.05
最大年度增长率: 6.76%
最小年度增长率: -2.75%
潜在异常点:


Unnamed: 0,Year,CW
3272,2022,4431270.24



国家: Netherlands, 数据点数: 33
平均值: 15498743.42, 标准差: 3266408.35
最大Z-score: 1.66
最大年度增长率: 21.94%
最小年度增长率: -27.52%

国家: New Zealand, 数据点数: 33
平均值: 1917192.41, 标准差: 561933.09
最大Z-score: 1.93
最大年度增长率: 28.93%
最小年度增长率: -27.41%

国家: Nicaragua, 数据点数: 33
平均值: 759071.07, 标准差: 220960.94
最大Z-score: 1.76
最大年度增长率: 69.44%
最小年度增长率: -57.13%
潜在异常点:


Unnamed: 0,Year,CW
3359,2010,473286.2381
3360,2011,801956.6562



国家: Niger, 数据点数: 33
平均值: 561839.95, 标准差: 170752.67
最大Z-score: 2.63
最大年度增长率: 10.71%
最小年度增长率: -4.34%
潜在异常点:


Unnamed: 0,Year,CW
3402,2020,908409.3
3403,2021,912988.0
3404,2022,1010745.0



国家: Nigeria, 数据点数: 33
平均值: 21676331.01, 标准差: 6675893.32
最大Z-score: 1.67
最大年度增长率: 8.59%
最小年度增长率: 0.74%

国家: North Macedonia, 数据点数: 21
平均值: 903878.64, 标准差: 59244.08
最大Z-score: 3.07
最大年度增长率: 25.37%
最小年度增长率: -4.15%
潜在异常点:


Unnamed: 0,Year,CW
3438,1999,721976.3511



国家: Norway, 数据点数: 33
平均值: 5471711.65, 标准差: 1240082.79
最大Z-score: 1.74
最大年度增长率: 24.13%
最小年度增长率: -27.92%

国家: Oman, 数据点数: 31
平均值: 2014591.21, 标准差: 639600.54
最大Z-score: 1.93
最大年度增长率: 116.90%
最小年度增长率: -54.65%
潜在异常点:


Unnamed: 0,Year,CW
3500,1998,1034778.369
3501,1999,2244412.298
3512,2012,1416671.784
3514,2014,2490673.41



国家: Pakistan, 数据点数: 33
平均值: 34717856.20, 标准差: 5743489.50
最大Z-score: 2.07
最大年度增长率: 6.21%
最小年度增长率: -0.43%
潜在异常点:


Unnamed: 0,Year,CW
3555,2022,46604719.05



国家: Panama, 数据点数: 33
平均值: 2193820.51, 标准差: 1037429.24
最大Z-score: 1.90
最大年度增长率: 77.41%
最小年度增长率: -56.54%
潜在异常点:


Unnamed: 0,Year,CW
3575,2009,3267388.11
3576,2010,1419854.502
3577,2011,2518920.919



国家: Papua New Guinea, 数据点数: 31
平均值: 249628.26, 标准差: 50339.10
最大Z-score: 1.74
最大年度增长率: 14.27%
最小年度增长率: -7.68%

国家: Paraguay, 数据点数: 31
平均值: 1076331.88, 标准差: 396011.94
最大Z-score: 1.98
最大年度增长率: 61.43%
最小年度增长率: -53.15%
潜在异常点:


Unnamed: 0,Year,CW
3630,2000,582533.2967
3632,2004,541439.5267
3633,2005,874036.8494
3638,2010,888675.347



国家: Peru, 数据点数: 31
平均值: 4567718.07, 标准差: 2122927.61
最大Z-score: 1.87
最大年度增长率: 67.99%
最小年度增长率: -50.75%
潜在异常点:


Unnamed: 0,Year,CW
3660,1999,4426231.427
3661,2000,2180117.527
3663,2004,2184089.487
3664,2005,3669055.338
3669,2010,3990283.105



国家: Philippines, 数据点数: 33
平均值: 14297784.95, 标准差: 3884400.44
最大Z-score: 2.17
最大年度增长率: 7.56%
最小年度增长率: -3.20%
潜在异常点:


Unnamed: 0,Year,CW
3714,2022,22724767.35



国家: Poland, 数据点数: 21
平均值: 32134616.29, 标准差: 5297483.03
最大Z-score: 2.00
最大年度增长率: 25.38%
最小年度增长率: -0.08%

国家: Portugal, 数据点数: 33
平均值: 6013165.74, 标准差: 895723.35
最大Z-score: 1.99
最大年度增长率: 22.63%
最小年度增长率: -27.24%

国家: Puerto Rico, 数据点数: 33
平均值: 3370260.43, 标准差: 523432.22
最大Z-score: 3.66
最大年度增长率: 58.80%
最小年度增长率: -59.11%
潜在异常点:


Unnamed: 0,Year,CW
3788,2009,5285627.534
3789,2010,2161427.409
3790,2011,3432442.141



国家: Qatar, 数据点数: 21
平均值: 3001554.98, 标准差: 1589719.02
最大Z-score: 1.42
最大年度增长率: 71.01%
最小年度增长率: -23.03%
潜在异常点:


Unnamed: 0,Year,CW
3814,2014,4168089.337



国家: Romania, 数据点数: 21
平均值: 15052190.33, 标准差: 2237970.57
最大Z-score: 2.38
最大年度增长率: 22.86%
最小年度增长率: -0.28%
潜在异常点:


Unnamed: 0,Year,CW
3823,1999,9716809.353



国家: Russian Federation, 数据点数: 24
平均值: 61876196.08, 标准差: 10837548.13
最大Z-score: 2.60
最大年度增长率: 34.33%
最小年度增长率: -20.81%
潜在异常点:


Unnamed: 0,Year,CW
3845,1999,33694014.75



国家: Rwanda, 数据点数: 33
平均值: 526421.80, 标准差: 230781.53
最大Z-score: 2.20
最大年度增长率: 31.73%
最小年度增长率: -49.31%
潜在异常点:


Unnamed: 0,Year,CW
3872,1994,174653.2
3900,2022,1033929.0



国家: Samoa, 数据点数: 33
平均值: 11986.54, 标准差: 3312.25
最大Z-score: 1.63
最大年度增长率: 27.35%
最小年度增长率: -28.34%

国家: Sao Tome and Principe, 数据点数: 22
平均值: 20820.76, 标准差: 3882.29
最大Z-score: 1.75
最大年度增长率: 7.05%
最小年度增长率: -2.68%

国家: Saudi Arabia, 数据点数: 29
平均值: 21678422.27, 标准差: 6897897.93
最大Z-score: 2.17
最大年度增长率: 84.71%
最小年度增长率: -35.93%
潜在异常点:


Unnamed: 0,Year,CW
3963,1998,10809143.21
3964,2000,19965174.24
3976,2014,26924250.7
3984,2022,36625494.92



国家: Senegal, 数据点数: 33
平均值: 1166845.72, 标准差: 282245.86
最大Z-score: 2.48
最大年度增长率: 8.97%
最小年度增长率: -5.78%
潜在异常点:


Unnamed: 0,Year,CW
4016,2021,1805754.584
4017,2022,1867393.13



国家: Seychelles, 数据点数: 33
平均值: 77241.05, 标准差: 10304.15
最大Z-score: 3.52
最大年度增长率: 29.04%
最小年度增长率: -6.86%
潜在异常点:


Unnamed: 0,Year,CW
4018,1990,56101.1377
4050,2022,113498.4614



国家: Sierra Leone, 数据点数: 33
平均值: 285649.14, 标准差: 74418.63
最大Z-score: 1.88
最大年度增长率: 19.13%
最小年度增长率: -20.43%

国家: Slovak Republic, 数据点数: 21
平均值: 4644820.61, 标准差: 702321.40
最大Z-score: 2.28
最大年度增长率: 21.31%
最小年度增长率: -0.88%
潜在异常点:


Unnamed: 0,Year,CW
4084,1999,3040182.913



国家: Slovenia, 数据点数: 21
平均值: 2383019.99, 标准差: 144525.75
最大Z-score: 3.78
最大年度增长率: 24.32%
最小年度增长率: -5.00%
潜在异常点:


Unnamed: 0,Year,CW
4105,1999,1836572.047



国家: Solomon Islands, 数据点数: 33
平均值: 15059.45, 标准差: 4547.63
最大Z-score: 1.64
最大年度增长率: 38.17%
最小年度增长率: -19.08%

国家: Somalia, 数据点数: 10
平均值: 531878.00, 标准差: 81366.51
最大Z-score: 1.54
最大年度增长率: 12.25%
最小年度增长率: 0.94%

国家: South Africa, 数据点数: 31
平均值: 8736364.34, 标准差: 2944797.61
最大Z-score: 1.98
最大年度增长率: 58.02%
最小年度增长率: -52.73%
潜在异常点:


Unnamed: 0,Year,CW
4172,1993,3565428.278
4173,1994,5634171.484



国家: Spain, 数据点数: 33
平均值: 29994497.58, 标准差: 6311164.19
最大Z-score: 1.73
最大年度增长率: 21.82%
最小年度增长率: -28.37%

国家: Sri Lanka, 数据点数: 33
平均值: 8062996.54, 标准差: 2098500.38
最大Z-score: 1.52
最大年度增长率: 6.46%
最小年度增长率: -7.80%

国家: St. Lucia, 数据点数: 33
平均值: 67106.32, 标准差: 9581.24
最大Z-score: 3.88
最大年度增长率: 66.27%
最小年度增长率: -58.80%
潜在异常点:


Unnamed: 0,Year,CW
4285,2009,104306.8045
4286,2010,42972.22806
4287,2011,71450.86545



国家: St. Vincent and the Grenadines, 数据点数: 33
平均值: 34909.34, 标准差: 6796.78
最大Z-score: 3.22
最大年度增长率: 58.41%
最小年度增长率: -60.77%
潜在异常点:


Unnamed: 0,Year,CW
4318,2009,56816.17811
4319,2010,22287.03133
4320,2011,35304.78277



国家: Sudan, 数据点数: 33
平均值: 5313967.91, 标准差: 1009472.37
最大Z-score: 2.27
最大年度增长率: 13.69%
最小年度增长率: -4.35%
潜在异常点:


Unnamed: 0,Year,CW
4332,1990,3019834.348
4333,1991,3292802.6



国家: Suriname, 数据点数: 31
平均值: 145020.31, 标准差: 41223.19
最大Z-score: 1.60
最大年度增长率: 65.17%
最小年度增长率: -51.03%
潜在异常点:


Unnamed: 0,Year,CW
4375,2000,78954.68773
4376,2001,120331.0364
4378,2005,139137.9331
4383,2010,136134.2116



国家: Sweden, 数据点数: 33
平均值: 8053722.55, 标准差: 2063045.61
最大Z-score: 1.70
最大年度增长率: 21.09%
最小年度增长率: -24.23%

国家: Switzerland, 数据点数: 33
平均值: 9300032.41, 标准差: 1963369.95
最大Z-score: 1.67
最大年度增长率: 23.68%
最小年度增长率: -26.16%

国家: Tajikistan, 数据点数: 33
平均值: 536234.77, 标准差: 190234.03
最大Z-score: 2.89
最大年度增长率: 77.15%
最小年度增长率: -73.02%
潜在异常点:


Unnamed: 0,Year,CW
4463,1991,1086343.0
4464,1992,293143.8
4465,1993,485335.8
4466,1994,777163.3
4467,1995,420043.1
4468,1996,268280.8
4494,2022,936748.6



国家: Tanzania, 数据点数: 33
平均值: 3085473.36, 标准差: 1235899.36
最大Z-score: 2.35
最大年度增长率: 11.02%
最小年度增长率: -1.18%
潜在异常点:


Unnamed: 0,Year,CW
4526,2021,5758722.401
4527,2022,5987826.747



国家: Thailand, 数据点数: 33
平均值: 23497953.35, 标准差: 3458146.79
最大Z-score: 1.94
最大年度增长率: 5.71%
最小年度增长率: -2.96%

国家: Timor-Leste, 数据点数: 23
平均值: 34725.88, 标准差: 9107.85
最大Z-score: 2.73
最大年度增长率: 38.98%
最小年度增长率: -19.01%
潜在异常点:


Unnamed: 0,Year,CW
4581,2020,56821.27203
4582,2021,59607.48565



国家: Togo, 数据点数: 33
平均值: 371444.54, 标准差: 85934.69
最大Z-score: 2.56
最大年度增长率: 18.61%
最小年度增长率: -10.76%
潜在异常点:


Unnamed: 0,Year,CW
4615,2021,562789.4744
4616,2022,591257.3775



国家: Tonga, 数据点数: 32
平均值: 6577.37, 标准差: 1237.39
最大Z-score: 1.92
最大年度增长率: 38.71%
最小年度增长率: -28.02%

国家: Trinidad and Tobago, 数据点数: 33
平均值: 875790.39, 标准差: 298716.85
最大Z-score: 2.43
最大年度增长率: 58.91%
最小年度增长率: -57.57%
潜在异常点:


Unnamed: 0,Year,CW
4668,2009,1600750.547
4669,2010,679147.596
4670,2011,1079210.788



国家: Tunisia, 数据点数: 33
平均值: 1947024.92, 标准差: 371325.18
最大Z-score: 1.86
最大年度增长率: 7.90%
最小年度增长率: -8.30%

国家: Turkiye, 数据点数: 26
平均值: 27556378.16, 标准差: 8316371.84
最大Z-score: 1.70
最大年度增长率: 20.37%
最小年度增长率: -5.70%

国家: Turkmenistan, 数据点数: 21
平均值: 1321375.72, 标准差: 375786.39
最大Z-score: 1.61
最大年度增长率: 10.58%
最小年度增长率: -4.70%

国家: Uganda, 数据点数: 33
平均值: 1993146.55, 标准差: 777433.51
最大Z-score: 1.84
最大年度增长率: 9.21%
最小年度增长率: -0.42%

国家: Ukraine, 数据点数: 16
平均值: 18337936.01, 标准差: 2575368.46
最大Z-score: 3.22
最大年度增长率: 71.23%
最小年度增长率: -48.29%
潜在异常点:


Unnamed: 0,Year,CW
4803,2015,10057742.71
4804,2016,17222016.92



国家: United Arab Emirates, 数据点数: 31
平均值: 7986514.66, 标准差: 3035020.87
最大Z-score: 2.02
最大年度增长率: 122.46%
最小年度增长率: -55.69%
潜在异常点:


Unnamed: 0,Year,CW
4818,1997,7918963.0
4819,1998,3508950.0
4820,1999,7805845.0
4831,2012,5584614.0
4833,2014,10080410.0
4841,2022,14106350.0



国家: United Kingdom, 数据点数: 33
平均值: 48460453.37, 标准差: 10061945.40
最大Z-score: 1.55
最大年度增长率: 20.88%
最小年度增长率: -26.74%

国家: United States, 数据点数: 32
平均值: 146370769.02, 标准差: 36076315.33
最大Z-score: 1.76
最大年度增长率: 49.46%
最小年度增长率: -37.39%
潜在异常点:


Unnamed: 0,Year,CW
4894,2010,113445660.2



国家: Uruguay, 数据点数: 31
平均值: 1046046.31, 标准差: 339553.48
最大Z-score: 1.76
最大年度增长率: 69.85%
最小年度增长率: -52.96%
潜在异常点:


Unnamed: 0,Year,CW
4917,2000,623520.3748
4919,2004,505688.6598
4920,2005,858899.1934
4925,2010,894713.5794



国家: Uzbekistan, 数据点数: 33
平均值: 3843886.16, 标准差: 1154818.65
最大Z-score: 2.34
最大年度增长率: 93.49%
最小年度增长率: -66.25%
潜在异常点:


Unnamed: 0,Year,CW
4939,1991,4016494.148
4940,1992,1355549.721
4941,1993,2622800.457
4942,1994,5059048.153
4943,1995,3093861.38
4969,2021,6290538.627
4970,2022,6547060.255



国家: Vanuatu, 数据点数: 33
平均值: 8181.67, 标准差: 2241.03
最大Z-score: 1.67
最大年度增长率: 34.45%
最小年度增长率: -26.34%

国家: Zambia, 数据点数: 33
平均值: 1347503.74, 标准差: 457215.14
最大Z-score: 2.09
最大年度增长率: 17.15%
最小年度增长率: -7.42%
潜在异常点:


Unnamed: 0,Year,CW
5036,2022,2301240.609



国家: Zimbabwe, 数据点数: 33
平均值: 1178904.37, 标准差: 286584.90
最大Z-score: 1.98
最大年度增长率: 17.20%
最小年度增长率: -20.59%


In [4]:
df_clean = detect_and_remove_anomalies(msw_df, target_col)
print(f"原始数据: {len(msw_df)} 行, 清洗后: {len(df_clean)} 行")

原始数据: 5070 行, 清洗后: 4939 行


In [5]:
train_df, predict_df = data_preprocessor.merge_features(df_clean)
print(f"用于训练的数据: {len(train_df)} 行, 预测的历史数据: {len(predict_df)} 行,总共: {len(train_df)+len(predict_df)}行")

用于训练的数据: 4939 行, 预测的历史数据: 492 行,总共: 5431行


In [6]:
# 保存最终数据集
train_df.to_csv(
    Path(Config.PATH_CONFIG['features_dir']) / 'training_data.csv', 
    index=False,
    encoding='utf-8-sig'
)
predict_df.to_csv(
    Path(Config.PATH_CONFIG['features_dir']) / 'prediction_data.csv', 
    index=False,
    encoding='utf-8-sig'
)

In [7]:
# """加载2023-2050数据"""
# future_df = pd.read_excel(
#     Config.FEATURE_CONFIG['future_data_path'],
#     sheet_name=Config.FEATURE_CONFIG['future_sheet'],
#     usecols=Config.FEATURE_CONFIG['usecols']
# )

# """加载1990-2022数据"""
# historical_df = pd.read_excel(
#     Config.FEATURE_CONFIG['historical_data_path'],
#     sheet_name=Config.FEATURE_CONFIG['historical_sheet'],
#     usecols=Config.FEATURE_CONFIG['usecols']
# )
# future_prediction_df = data_preprocessor.process_future_data(historical_df, future_df)

# # 保存最终数据集
# future_prediction_df.to_csv(
#     Path(Config.PATH_CONFIG['features_dir']) / 'future_prediction_data.csv', 
#     index=False,
#     encoding='utf-8-sig'
# )