# 开篇

## 问题
本章教我们针对算法设计要问出正确的问题。

作者的朋友问了他一个问题：“如何给磁盘文件排序？”
作者问出了三个关键的问题从而引导出解决方案。

Q1：为什么要自己写排序程序而不是用系统自带的排序呢？  
A1：由于不明的技术原因无法使用系统自带的程序。  
（隐含的思路是 我们应该先尝试显而易见或者容易获得的方案）  

Q2：需要排序的内容是什么？文件中有多少条记录？每条记录的格式是什么？  
A2：文件最多包含1千万条记录，每条记录都是7位的整数。  
（隐含的思路是 数据的结构性对于算法的设计是很有帮助的）  

Q3：既然文件这么小，何必非要在磁盘上进行排序呢？为什么不在内存上进行排序呢？  
A3：到时只有1MB的内存可用。  
（隐含的思路是 要知道算法可用的资源有多少，看菜下饭）  

## 准确的问题描述
理解了需求以后，就要将需求转化为程序员的描述。

输入：一个最多包含n个正整数的文件，每个数都小于n，其中n=10^7。如果输入文件中有任何整数重复出现就是致命错误。没有其他数据与该整数有关联。  
输出：按升序排列的输入整数的列表。  
约束：最多有（大约）1MB的内存可用，有充足的磁盘空间可用。运行时间最多几分钟，优化到10秒就不需要再优化了。  

## 程序设计
思路是 我们要渐进式的开发、分析瓶颈、优化。
先要有个baseline，对于这个问题的baseline可以是这样的：
由于1MB最多可以存250000个32位整数的号码，那么1000 0000个号码就要通过遍历40趟来完成排序。

然后我们来想象最理想的情况：1MB内放下1000 0000个号码并且完成排序，也就是我们需要更合适的数据结构。

## 实现概要

我们可以使用一个具有1000万个位的字符串来表示这个文件，当且仅当第i位存在时，第i位为1。

In [3]:
def baseline(x, N):
    # phase 1: initialize set to empty
    bit = ['0'] * N
    # phase 2: insert present elements into the set
    for i in x:
        bit[i] = '1'
    # phase 3: write sorted output
    out = []
    for i in range(N):
        if bit[i] == '1':
            # write i on the output file
            out.append(i)
    return out

In [12]:
# Test baseline
import random
import time

N = 10000000
x = random.sample(range(N), N)
start = time.time()
out = baseline(x, N)
end = time.time()
# print(f"x: {x}")
# print(f"out: {out}")
print(f"baseline (N={N}) take {end - start}s")

baseline (N=10000000) take 4.161578178405762s


## 习题

In [13]:
# 1. 如果不缺内存，如何用系统库实现？
start = time.time()
out = sorted(x)
end = time.time()
print(f"sorted (N={N}) take {end - start}s")

sorted (N=10000000) take 8.822932958602905s


In [None]:
# 2. 如何使用位运算来实现位向量？
