# 安然提交开放式问题

## 1. 向我们总结此项目的目标以及机器学习对于实现此目标有何帮助。作为答案的部分，提供一些数据集背景信息以及这些信息如何用于回答项目问题。你在获得数据时它们是否包含任何异常值，你是如何进行处理的？

安然曾经是2000年美国最大的公司之一。2002年，由于其存在大量的企业欺诈行为，这个昔日的大集团土崩瓦解。在随后联邦进行的调查过程中，公开了成千上万涉及高管的邮件和详细的财务数据，包括“工资”，“奖金”，“长期激励”，“发送的邮件数量”和“收到的邮件数量”等等。本次项目将使用这份公开的财务和邮件数据，通过机器学习技术构建嫌疑人识别器，找出数据中可能存在的模式，用于识别谁是有欺诈嫌疑的安然员工。

获得的财务数据存在异常值，通过对salary和bonus绘制散点图发现了一个明显过大的异常值。该异常值是由原始数据中的汇总信息造成的（“Total”），因此需要删除该异常值。删除之后对数据进行进一步检查，还能发现两个疑似的异常值点——至少5百万美元的奖金和超过1百万美元的工资，这些疑似点对应的当事人为LAY KENNETH L和SKILLING JEFFREY K，通过安然丑闻的背景信息了解到这两人就是该事件的核心人物，因此它们是有效的数据点，需要保留。

## 2. 你最终在你的 POI 标识符中使用了什么特征，你使用了什么筛选过程来挑选它们？你是否需要进行任何缩放？为什么？作为任务的一部分，你应该尝试设计自己的特征，而非使用数据集中现成的——解释你尝试创建的特征及其基本原理。（你不一定要在最后的分析中使用它，而只设计并测试它）。在你的特征选择步骤，如果你使用了算法（如决策树），请也给出所使用特征的特征重要性；如果你使用了自动特征选择函数（如 SelectBest），请报告特征得分及你所选的参数值的原因。【相关标准项：“创建新特征”、“适当缩放特征”、“智能选择功能”】

根据我对原始数据集的调查和探索，我首先去除了total_payments和total_stock_value这两个特征，因为它们分别是其他一些特征的和，与一些其他已存在的特征强相关。另外对于具有很多NaN的特征我选择了保留，因为这样的特征也许隐含了数据的某种模式。

在此基础上我创建了两个新的特征from_this_person_to_poi_ratio和from_poi_to_this_person_ratio，分别代表“当事人发给POI邮件占总发送邮件的比例”和“当事人收到POI邮件占总收到邮件的比例”。因为单纯的从当事人发给POI或收到POI邮件的数量并不一定能说明问题，而通过这样的特征缩放能看出当事人与POI来往的密切程度，缩放后的比例值越高，当事人自己就越有可能是POI。

In [1]:
%run poi_id.py



In [2]:
sorted(score_feature, key=lambda x: x[0], reverse=True)

[(25.097541528735491, 'exercised_stock_options'),
 (21.060001707536571, 'bonus'),
 (18.575703268041785, 'salary'),
 (16.641707070468989, 'from_this_person_to_poi_ratio'),
 (11.595547659730601, 'deferred_income'),
 (10.072454529369441, 'long_term_incentive'),
 (9.3467007910514877, 'restricted_stock'),
 (8.7464855321290802, 'shared_receipt_with_poi'),
 (7.2427303965360181, 'loan_advances'),
 (6.2342011405067401, 'expenses'),
 (5.3449415231473374, 'from_poi_to_this_person'),
 (4.204970858301416, 'other'),
 (3.2107619169667441, 'from_poi_to_this_person_ratio'),
 (2.4265081272428781, 'from_this_person_to_poi'),
 (2.1076559432760908, 'director_fees'),
 (1.6988243485808501, 'to_messages'),
 (0.2170589303395084, 'deferral_payments'),
 (0.16416449823428736, 'from_messages'),
 (0.06498431172371151, 'restricted_stock_deferred')]

在“特征选择”步骤中我使用了自动特征选择函数SelectKBest来查看所有特征的评分，并最终将得分低于2.0的特征去除，它们分别是：to_messages，deferral_payments，from_messages和restricted_stock_deferred。其他特征均予以保留。

## 3. 你最终使用了什么算法？你还尝试了其他什么算法？不同算法之间的模型性能有何差异？【相关标准项：“选择算法”】

## 4. 调整算法的参数是什么意思，如果你不这样做会发生什么？你是如何调整特定算法的参数的？（一些算法没有需要调整的参数 – 如果你选择的算法是这种情况，指明并简要解释对于你最终未选择的模型或需要参数调整的不同模型，例如决策树分类器，你会怎么做）。【相关标准项：“调整算法”】

## 5. 什么是验证，未正确执行情况下的典型错误是什么？你是如何验证你的分析的？【相关标准项：“验证策略”】

## 6. 给出至少 2 个评估度量并说明每个的平均性能。解释对用简单的语言表明算法性能的度量的解读。【相关标准项：“评估度量的使用”】