# 查找离群值

在本练习中，你将练习查找离群值。你会使用世界银行的 GDP 和人口数据集。首先，从一维的角度观察数据，然后是二维的角度。

运行下方的单元格中代码来导入数据集和准备分析用的数据。代码包括：
* 读入数据集
* 将数据集变形 (reshapes) 为长格式 (long format)
* 使用向后填充和向前填充来填充缺失值
* 将 GDP 和 人口数据进行合并
* 打印数据集的前 10 行数据

In [None]:
import pandas as pd
import numpy as np

# read in the projects data set and do basic wrangling 
gdp = pd.read_csv('../data/gdp_data.csv', skiprows=4)
gdp.drop(['Unnamed: 62', 'Country Code', 'Indicator Name', 'Indicator Code'], inplace=True, axis=1)
population = pd.read_csv('../data/population_data.csv', skiprows=4)
population.drop(['Unnamed: 62', 'Country Code', 'Indicator Name', 'Indicator Code'], inplace=True, axis=1)


# Reshape the data sets so that they are in long format
gdp_melt = gdp.melt(id_vars=['Country Name'], 
                    var_name='year', 
                    value_name='gdp')

# Use back fill and forward fill to fill in missing gdp values
gdp_melt['gdp'] = gdp_melt.sort_values('year').groupby('Country Name')['gdp'].fillna(method='ffill').fillna(method='bfill')

population_melt = population.melt(id_vars=['Country Name'], 
                                  var_name='year', 
                                  value_name='population')

# Use back fill and forward fill to fill in missing population values
population_melt['population'] = population_melt.sort_values('year').groupby('Country Name')['population'].fillna(method='ffill').fillna(method='bfill')

# merge the population and gdp data together into one data frame
df_country = gdp_melt.merge(population_melt, on=('Country Name', 'year'))

# filter data for the year 2016
df_2016 = df_country[df_country['year'] == '2016']

# see what the data looks like
df_2016.head(10)

# 练习

使用 Tukey 规则探索数据集中的离群值。完成 TODO 任务。

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline 

# TODO: Make a boxplot of the population data for the year 2016

# TODO: Make a boxplot of the gdp data for the year 2016


使用 Tukey 规则判定 2016 年的人口数据中哪些是离群值。Tukey 规则可以找到一维数据中的离群值。其步骤是：

* 找到上四分位数  (ie .25 分位数)
* 找到下四分位数  (ie .75分位数)
* 计算分位数区间 (Q3 - Q1)
* 任何比Q3 + 1.5 * IQR 大的数是离群值
* 任何比 Q1 - 1.5 * IQR 小的数是离群值

In [None]:
# TODO: Calculate the first quartile of the population values for 2016
# HINT: you can use the pandas quantile method 
Q1 = None

# TODO: Calculate the third quartile of the population values for 2016
Q3 = None

# TODO: Calculate the interquartile range Q3 - Q1
IQR = None

# TODO: Calculate the maximum value and minimum values according to the Tukey rule
# max_value is Q3 + 1.5 * IQR while min_value is Q1 - 1.5 * IQR
max_value = None
min_value = None

# TODO: filter the population_2016 data for population values that are greater than max_value or less than min_value
population_outliers = None
population_outliers

注意，很多都不是国家，只是多个国家的联合体，比如欧盟。还要注意到上述计算出来的最小值 min_value 是负的。根据 Tukey 规则，数据集中没有最小的离群值。如果你要研究人口和 GDP 的关系的话，你可能希望从数据集中删除多国联合体。

下一步，使用 Tukey 方法对 GDP 再做一遍分析。

In [None]:
# TODO: Calculate the first quartile of the population values for 2016
# HINT: you can use the pandas quantile method 
Q1 = None

# TODO: Calculate the third quartile of the population values for 2016
Q3 = None

# TODP: Calculate the interquartile range Q3 - Q1
IQR = None

# TODO: Calculate the maximum value and minimum values according to the Tukey rule
# max_value is Q3 + 1.5 * IQR while min_value is Q1 - 1.5 * IQR
max_value = None
min_value = None

# TODO: filter the population_2016 data for population values that are greater than max_value or less than min_value
gdp_outliers = None
gdp_outliers

很多情况下，多个地区的数据合并成一个，例如多国联合体的情况，而导致了离群值的产生。

删除这些离群值，然后重复一遍操作。下面这个列表显示了 'Country Name' 的值不是一个国家的情况。

In [None]:
# TODO: remove the rows from the data that have Country Name values in the non_countries list
# Store the filter results back into the df_2016 variable

non_countries = ['World',
 'High income',
 'OECD members',
 'Post-demographic dividend',
 'IDA & IBRD total',
 'Low & middle income',
 'Middle income',
 'IBRD only',
 'East Asia & Pacific',
 'Europe & Central Asia',
 'North America',
 'Upper middle income',
 'Late-demographic dividend',
 'European Union',
 'East Asia & Pacific (excluding high income)',
 'East Asia & Pacific (IDA & IBRD countries)',
 'Euro area',
 'Early-demographic dividend',
 'Lower middle income',
 'Latin America & Caribbean',
 'Latin America & the Caribbean (IDA & IBRD countries)',
 'Latin America & Caribbean (excluding high income)',
 'Europe & Central Asia (IDA & IBRD countries)',
 'Middle East & North Africa',
 'Europe & Central Asia (excluding high income)',
 'South Asia (IDA & IBRD)',
 'South Asia',
 'Arab World',
 'IDA total',
 'Sub-Saharan Africa',
 'Sub-Saharan Africa (IDA & IBRD countries)',
 'Sub-Saharan Africa (excluding high income)',
 'Middle East & North Africa (excluding high income)',
 'Middle East & North Africa (IDA & IBRD countries)',
 'Central Europe and the Baltics',
 'Pre-demographic dividend',
 'IDA only',
 'Least developed countries: UN classification',
 'IDA blend',
 'Fragile and conflict affected situations',
 'Heavily indebted poor countries (HIPC)',
 'Low income',
 'Small states',
 'Other small states',
 'Not classified',
 'Caribbean small states',
 'Pacific island small states']


In [None]:
# TODO: Re-rerun the Tukey code with this filtered data to find population outliers

population_outliers = None
population_outliers

In [None]:
# TODO: Re-rerun the Tukey code with this filtered data to find gdp outliers in 2016

gdp_outliers = None
gdp_outliers

下一步，编写代码来判断哪个国家是在 population_outliers 序列 (array) 和 gdp_outliers 序列。

In [None]:
# TODO: Find country names that are in both the population_outliers and the gdp_outliers 
# HINT: you can use the pandas intersection() method and python set() and list() methods


这些国家有相对较高的人口和 GDP。我们可能推断出，尽管这些国家的 GDP 和人口较高，但是从二维的角度来看它们其实并不是离群值。

现在，编写代码，找到 population_outliers 中存在、但是 gdp_outliers 中不存在的离群值。

In [None]:
# TODO: Find country names that are in the population outliers list but not the gdp outliers list
# HINT: Python's set() and list() methods should be helpful


这些国家是人口离群值但不是 GDP 离群值。如果从二维的角度寻找离群值，有一些特征表明这些国家可能是离群值。

最后，编写代码，找出在 gdp_outliers 序列而不在 population_outliers 序列中的国家。

In [None]:
# TODO: Find country names that are in the gdp outliers list but not the population outliers list
# HINT: Python's set() and list() methods should be helpful


这些国家的 GDP 很高，但不是人口离群值。


# 示例：二维分析

下一步，从二维的角度查看数据。在这一节，你只需要运行下方的单元格。这是一个基本的示例，让你了解机器学习算法如何影响删除离群值。

下方的单元格画出了 GDP 对人口数据的图像，标出了每个点的国家名称。

In [None]:
# run the code cell below
x = list(df_2016['population'])
y = list(df_2016['gdp'])
text = df_2016['Country Name']

fig, ax = plt.subplots(figsize=(15,10))
ax.scatter(x, y)
plt.title('GDP vs Population')
plt.xlabel('population')
plt.ylabel('GDP')
for i, txt in enumerate(text):
    ax.annotate(txt, (x[i],y[i]))

美国 (The United States)、中国 (China) 和印度 (India) 的数值很大，导致这些数据都几乎看不到了。

In [None]:
# Run the code below to see the results 
df_no_large = (df_2016['Country Name'] != 'United States') & (df_2016['Country Name'] != 'India') & (df_2016['Country Name'] != 'China')
x = list(df_2016[df_no_large]['population'])
y = list(df_2016[df_no_large]['gdp'])
text = df_2016[df_no_large]['Country Name']

fig, ax = plt.subplots(figsize=(15,10))
ax.scatter(x, y)
plt.title('GDP vs Population')
plt.xlabel('population')
plt.ylabel('GDP')
for i, txt in enumerate(text):
    ax.annotate(txt, (x[i],y[i]))

让我们把这些国家暂时删除，然后再次查看数据。运行下方的代码，对 2016 年的人口和 GDP 数据做简单线性回归。

In [None]:
from sklearn.linear_model import LinearRegression

# fit a linear regression model on the population and gdp data
model = LinearRegression()
model.fit(df_2016['population'].values.reshape(-1, 1), df_2016['gdp'].values.reshape(-1, 1))

# plot the data along with predictions from the linear regression model
inputs = np.linspace(1, 2000000000, num=50)
predictions = model.predict(inputs.reshape(-1,1))

df_2016.plot('population', 'gdp', kind='scatter')
plt.plot(inputs, predictions)
print(model.predict(1000000000))

注意代码的输出结果 GDP 值是 6.54e+12，人口值是 1e9。现在移除美国，再运行下方的单元格。

In [None]:
# Remove the United States to see what happens with the linear regression model
df_2016[df_2016['Country Name'] != 'United States'].plot('population', 'gdp', kind='scatter')
# plt.plot(inputs, predictions)
model.fit(df_2016[df_2016['Country Name'] != 'United States']['population'].values.reshape(-1, 1), 
          df_2016[df_2016['Country Name'] != 'United States']['gdp'].values.reshape(-1, 1))
inputs = np.linspace(1, 2000000000, num=50)
predictions = model.predict(inputs.reshape(-1,1))
plt.plot(inputs, predictions)
print(model.predict(1000000000))

注意现在输出结果GDP 值是 5.26e+12，人口值是1e9。也就是说，删除美国之后，线性回归的趋势线向下移动了。

# 结语

数据科学家有时候需要编写删除离群值的模型。在本练习中，你使用了 Tukey 规则。还有其他一维的模型，比如删除距离平均值太远的值。还有一些更复杂的模型，可以处理更高维度的数据。

记住，这是一门关于数据工程的章节。作为一名数据工程师，你的职责就是基于某种模型编写代码，删除离群值。

如果你使用的是 Tukey 规则，你需要使用训练数据计算 Q1、Q3和IQR。你需要保存这些结果。当有新数据时，你就使用这些存储的数据来删除离群值。