# 1. 导论
## 1.1　数据的威力
生活中，数据无处不在。用户的每次点击，网站都会记录下来。你每时每刻的位置和速度，智能手机也会记录下来。“量化自我”生活方式的倡导者使用智能计步器记录心率、行动习惯、饮食习惯、睡眠方式。智能汽车记录驾驶习惯，智能家居设施记录生活习惯，智能购物设备记录购物习惯，等等。互联网是一个广袤的知识谱系，包括有无数交叉引用的百科全书，电影、音乐、赛讯、弹球机、模因、鸡尾酒等各种专业数据库，以及许多政府发布的多得让人理不清头绪的统计数据（某些还是比较真实的）。

在这些数据之中隐藏着无数问题的答案，这些问题从没有人提出过。让我们在这本书中一起学习如何找出这些问题。

## 1.2 什么是数据科学
我们认为，数据科学家是能够从混乱数据中剥离出洞见的人。

举个例子，你在Facebook上需要填写家乡和居住地的信息。表面上看，网站是在帮助你的朋友更容易地找到你，联系你。但实际上，除此以外，网站还通过分析地理信息来研究[全球移民模式](https://www.facebook.com/notes/facebook-data-science/coordinatedmigration/10151930946453859)，或者研究不同球队的[粉丝分布情况](https://www.facebook.com/notes/facebook-data-science/nﬂ-fans-on-facebook/10151298370823859)。

再举一个奥巴马2012年竞选的例子。他的竞选团队雇用了很多数据科学家，专家们搜集选民的相关数据，通过数据挖掘识别不同的选民。他们通过实验的方法确定哪些选民需要更多的关注，并选择最有鼓舞性的拉票活动，把重心放在最能吸引选票的活动上。最后，奥巴马胜出，成功地第二次出任总统。人们普遍认为数据科学家功不可没。同时，这意味着数据分析在未来竞选中会扮演越来越重要的角色，一场数据竞争的硝烟弥漫开来，好戏刚刚开始。

## 1.3 激励假设：DataSciencester
假设你被聘请来领导DataSciencester的数据科学工作。DataSciencester是数据科学家们的社交网络。

虽然号称为数据科学家服务，DataSciencester却从未践行数据科学任务（同样也从未构建自己的产品）。当然，这是你的工作。在本书中，我们通过解决在工作中碰到的一个个问题，来学习数据科学的思想。我们有时会直接研究用户提供的数据，有时会研究用户与网站互动生成的数据，有时研究从我们自己设计的实验中获得的数据。

DataSciencester拥有一种特别强烈的原创精神——“非我莫属”，即工作中使用到的工具必须自己亲手创建。这样完成工作之后，你会全面深入地理解数据科学。

### 1.3.1 寻找关键联系人
网络部一直有一些关于客户的问题没有解决：
1. 需要识别出数据科学家中的“关键联系人”。你有DataSciencester所有用户的网络关系数据。从整体上看，数据是一个包含所有用户的列表。列表的每个元素是一个字典。字典中包含了用户的ID和账号名：

In [1]:
users = [
    { "id": 0, "name": "Hero" },
    { "id": 1, "name": "Dunn" }, 
    { "id": 2, "name": "Sue" }, 
    { "id": 3, "name": "Chi" }, 
    { "id": 4, "name": "Thor" }, 
    { "id": 5, "name": "Clive" },
    { "id": 6, "name": "Hicks" }, 
    { "id": 7, "name": "Devin" }, 
    { "id": 8, "name": "Kate" }, 
    { "id": 9, "name": "Klein" }
]

同时你也有用户的“友邻关系”数据列表：

In [2]:
friendships = [(0, 1), (0, 2), (1, 2), (1, 3), (2, 3), (3, 4), (4, 5), (5, 6), (5, 7), (6, 8), (7, 8), (8, 9)]

比如说，元组(0,1)表示id为0的数据科学家Hero和id为1的数据科学家Dunn是朋友。这种网络关系可以用`图1-1`来描述：

<img src="images/01_01.png" style="width:500px;"/>

我们希望对每个用户增加一个朋友列表：

In [3]:
for user in users: 
    user["friends"] = []

for i, j in friendships:
    # 这能起作用是因为users[i]是id为i的用户
    users[i]["friends"].append(users[j]) # 把i加为j的朋友 
    users[j]["friends"].append(users[i]) # 把j加为i的朋友

计算出全部的联系数，这需要对所有用户的friends列表的长度求和：

In [4]:
def number_of_friends(user):
    """how many friends does _user_have?""" 
    return len(user["friends"])

total_connections = sum(number_of_friends(user) for user in users)
total_connections

24

之后求用户的平均联系数：

In [5]:
from __future__ import division # 整数除法需要导入

num_users = len(users) 
avg_connections = total_connections / num_users
avg_connections

2.4

因为用户不多，所以能很方便地按照朋友数的多少排序：

In [6]:
# 创建一个列表(user_id, number_of_friends) 
num_friends_by_id = [(user["id"], number_of_friends(user)) for user in users]

sorted(num_friends_by_id, key = lambda x: x[1], reverse=True)

[(1, 3),
 (2, 3),
 (3, 3),
 (5, 3),
 (8, 3),
 (0, 2),
 (4, 2),
 (6, 2),
 (7, 2),
 (9, 1)]

可将以上行为视为一种识别谁处在人际网络中心的方法。事实上，以上计算的是`度中心性`，是一种网络度量，如`图1-2`所示：

<img src="images/01_02.png" style="width:500px;"/>

度中心性简单易算，但不能总如你所愿。比如，在DataSciencester的网络中，`Thor`（id为4）只有两个联系数，`Dunn`（id为1）有三个。从网络关系图中看，直观上感觉Thor处于中心地位。`第21章`将考察网络关系的更多细节，探讨更多关于中心性的复杂概念，它们可能与直觉一致，也可能不一致。

### 1.3.2 你可能知道的数据科学家
你希望设计一个“你可能知道的数据科学家”的提示函数。你的直觉是用户可能会认识朋友的朋友。这不难计算：对某个用户，依次计算每个朋友的朋友，最后合并结果：

In [7]:
def friends_of_friend_ids_bad(user):
    return [foaf["id"]
                for friend in user["friends"]
                for foaf in friend["friends"]]

当我们对`users[0]` 调用上面这个函数时：

In [8]:
friends_of_friend_ids_bad(users[0])

[0, 2, 3, 0, 1, 3]

因为Hero是他两位朋友的朋友，所以结果中包含两次用户0。同时，因为用户1和用户2都是Hero的朋友，所以也包含在结果中。此外，由于用户Chi可以通过用户1和用户2与用户0联系，所以包含了他两次：

In [9]:
print([friend["id"] for friend in users[0]["friends"]])
print([friend["id"] for friend in users[1]["friends"]])
print([friend["id"] for friend in users[2]["friends"]])

[1, 2]
[0, 2, 3]
[0, 1, 3]


有趣的是，人们可以通过朋友的朋友相互认识。受此启发，我们也许可以设计一个共同的朋友，由他来表示朋友的计数。同时，为了排除那些已经成为朋友的用户，我们需要设计一个辅助函数来实现这个功能：

In [10]:
from collections import Counter

def not_the_same(user, other_user):
    """two users are not the same if they have different ids"""
    return user['id'] != other_user['id']

def not_friends(user, other_user):
    """other_user is not a friend if he's not in user["friends"]; that is, 
    if he's not_the_same as all the people in user["friends"]"""
    return all(not_the_same(friend, other_user) for friend in user['friends'])

def friends_of_friend_ids(user):
    return Counter(foaf['id']
                   for friend in user['friends']
                   for foaf in friend['friends']
                   if not_the_same(user, foaf)
                   and not_friends(user, foaf))

friends_of_friend_ids(users[3])

Counter({0: 2, 5: 1})

这个输出结果正确无误地说明了Chi（id为3）和Hero（id为0）有两个共同的朋友，和Clive（id为5）有一个共同的朋友。

出于直觉，你可能会喜欢结交有共同兴趣的人（这个例子很好地展示了数据科学家的专业技能）。咨询之后，你设计出如下列表，每个元素都是成对数据`id,interest)`：

In [11]:
interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"), (0, "Spark"), (0, "Storm"), (0, "Cassandra"), 
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"), (1, "Postgres"), 
    (2, "Python"), (2, "scikit-learn"), (2, "scipy"), (2, "numpy"), (2, "statsmodels"), (2, "pandas"),
    (3, "R"), (3, "Python"), (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"), (4, "libsvm"), 
    (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"), (5, "Haskell"), (5, "programming languages"), 
    (6, "statistics"), (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"), (7, "neural networks"), 
    (8, "neural networks"), (8, "deep learning"), (8, "Big Data"), (8, "artificial intelligence"), 
    (9, "Hadoop"), (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

例如，Thor（id为4）与Devin（id为7）没有共同的朋友，但他们对机器学习都感兴趣。

如果需要找出对某种事物有共同爱好的用户，很容易设计出相应的函数：

In [12]:
def data_scientists_who_like(target_interest):
    return [user_id for user_id, user_interest in interests if user_interest == target_interest]

但是，上面的算法每次搜索都需要遍历整个兴趣列表，如果用户很多或者用户的兴趣很多（或我们只是想多进行一些查找），这种算法的时间和空间成本会很大，因此最好能建立一个从兴趣到用户的索引直接搜索：

In [13]:
from collections import defaultdict

# 键是interest，值是带有这个interest的user_id的列表 
user_ids_by_interest = defaultdict(list)

for user_id, interest in interests: 
    user_ids_by_interest[interest].append(user_id)

以及另一个从用户到兴趣的索引：

In [14]:
# 键是user_id，值是对那些user_id的interest的列表 
interests_by_user_id = defaultdict(list) 

for user_id, interest in interests: 
    interests_by_user_id[user_id].append(interest)

现在，给定一个用户，可以方便地找到与他共同爱好最多的用户：
+ 迭代这个用户的兴趣
+ 针对这个用户的每一种兴趣，寻找这种兴趣的其他用户，并迭代
+ 记录每一个用户在循环中出现的次数

In [15]:
def most_common_interests_with(user):
    return Counter(interested_user_id for interest in interests_by_user_id[user["id"]] 
                                                    for interested_user_id in user_ids_by_interest[interest] 
                                                        if interested_user_id != user["id"])

most_common_interests_with(users[3])

Counter({5: 2, 2: 1, 6: 2, 4: 1})

### 1.3.3 工资与工作年限
下面是一份关于数据科学家收入的匿名文件，其中包含每位用户的工资（salary）和作为数据科学家的工作年限（tenure）：

In [16]:
salaries_and_tenures = [
    (83000, 8.7), (88000, 8.1), (48000, 0.7), (76000, 6), (69000, 6.5), 
    (76000, 7.5), (60000, 2.5), (83000, 10), (48000, 1.9), (63000, 4.2)]

<img src="images/01_03.png" style="width:500px;"/>

从图中可知，工作年限越长的人收入越高。接下来需要考虑的是如何将这个结果转化成更有趣的事实。首先考察一下年均收入：

In [17]:
# 键是year，值是对每一个tenure的salary的列表 
salary_by_tenure = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    salary_by_tenure[tenure].append(salary)

# 键是year，每个值是相应tenure的平均salary 
average_salary_by_tenure = {
    tenure : sum(salaries) / len(salaries)
    for tenure, salaries in salary_by_tenure.items() }

average_salary_by_tenure

{8.7: 83000.0,
 8.1: 88000.0,
 0.7: 48000.0,
 6: 76000.0,
 6.5: 69000.0,
 7.5: 76000.0,
 2.5: 60000.0,
 10: 83000.0,
 1.9: 48000.0,
 4.2: 63000.0}

实际上，任何两个用户都没有相同的工作年限，所以上述计算结果作用有限。一个更有意义的计算方式是把用户的工作年限分组：

In [18]:
def tenure_bucket(tenure): 
    if tenure < 2:
        return "less than two" 
    elif tenure < 5:
        return "between two and five" 
    else:
        return "more than five"

# 键是tenure bucket，值是相应bucket的salary的列表 
salary_by_tenure_bucket = defaultdict(list)

for salary, tenure in salaries_and_tenures:
    bucket = tenure_bucket(tenure) 
    salary_by_tenure_bucket[bucket].append(salary)

# 计算每个分组的平均工资
# 键是tenure bucket，值是对那个bucket的average salary 
average_salary_by_bucket = {
    tenure_bucket : sum(salaries) / len(salaries) 
    for tenure_bucket, salaries in salary_by_tenure_bucket.items()
}

average_salary_by_bucket

{'more than five': 79166.66666666667,
 'less than two': 48000.0,
 'between two and five': 61500.0}

现在，你得到结论：“有5年以上工作年限的数据科学家比同行新人的收入高65%。”

但是，我们的选择是任意的。我们原本希望说明的是，平均看来，更多的工作年限意味着更多的工资收入。为了得到更多有趣的结论，我们可以预测一些未知年限的工资。我们将在`第14章`探讨这个想法。

### 1.3.4 付费账户
现在你想更好地了解哪些用户会为账户付费，哪些用户不会。你注意到在工作年限和付费账户之间似乎存在一种对应关系：
```
0.7 paid
1.9 unpaid
2.5 paid
4.2 unpaid 
6 unpaid
6.5 unpaid
7.5 unpaid
8.1 unpaid
8.7 paid 10 paid
```

那些新手和资历很深的用户倾向于付费，而那些具有中等工作年限的用户则倾向于不付费。

由此，如果你打算创建一个模型——尽管这点数据对创建模型肯定是不够的——你会试图对新手和资深用户预测“付费”，而对具有中等工作年限的用户预测“不付费”：

In [19]:
def predict_paid_or_unpaid(years_experience):
    if years_experience < 3.0:
        return "paid" 
    elif years_experience < 8.5:
        return "unpaid" 
    else:
        return "paid"

利用更多的数据（和更多的数学计算），我们可以基于用户的工作年限来预测用户付费的可能性。我们会在`第16章`研究这类问题。

### 1.3.5 兴趣主题
现在你想了解什么样的主题更令用户感兴趣，以便据此规划他的博客日历。你已经有了来自友邻推荐项目的原始数据：

In [20]:
interests = [
    (0, "Hadoop"), (0, "Big Data"), (0, "HBase"), (0, "Java"), (0, "Spark"), (0, "Storm"), (0, "Cassandra"), 
    (1, "NoSQL"), (1, "MongoDB"), (1, "Cassandra"), (1, "HBase"), (1, "Postgres"), 
    (2, "Python"), (2, "scikit-learn"), (2, "scipy"), (2, "numpy"), (2, "statsmodels"), (2, "pandas"),
    (3, "R"), (3, "Python"), (3, "statistics"), (3, "regression"), (3, "probability"),
    (4, "machine learning"), (4, "regression"), (4, "decision trees"), (4, "libsvm"), 
    (5, "Python"), (5, "R"), (5, "Java"), (5, "C++"), (5, "Haskell"), (5, "programming languages"), 
    (6, "statistics"), (6, "probability"), (6, "mathematics"), (6, "theory"),
    (7, "machine learning"), (7, "scikit-learn"), (7, "Mahout"), (7, "neural networks"), 
    (8, "neural networks"), (8, "deep learning"), (8, "Big Data"), (8, "artificial intelligence"), 
    (9, "Hadoop"), (9, "Java"), (9, "MapReduce"), (9, "Big Data")
]

一种简单（但并不激动人心）的方法是仅仅数一下兴趣词汇的个数：
1. 小写每一种兴趣（因为不同的用户不一定会大写他们的兴趣）
2. 把它划分为单词
3. 数一数结果。

用下面的代码：

In [21]:
# lower case, split into words, count the results
words_and_counts =  Counter(
    word
        for user, interest in interests
        for word in interest.lower().split())

for word, count in words_and_counts.most_common():
    if count > 1:
        print(word, count)

big 3
data 3
java 3
python 3
learning 3
hadoop 2
hbase 2
cassandra 2
scikit-learn 2
r 2
statistics 2
regression 2
probability 2
machine 2
neural 2
networks 2
