# 题目：数据流中的中位数
如何得到一个数据流中的中位数？如果从数据流中读出奇数个数值，那么中位数就是所有数值排序之后位于中间的值。如果从数据流中读出偶数个数值，那么中位数就是所有数值排序后中间两个数的平均值。  
注意：数据是从数据流中读出来的，因而数据的数目随着时间变化而增加。  

## 分析：
如果用一个数据容器来保存从流中读出来的数据，则当有新的数据从数据流中读出来时，这些数据就插入数据容器，那么选择什么样的数据容器比较适合题目呢？  
1.数组：  
数组是最简单的数据容器。如果是没有排序的数组，则可以用$Partition$函数找出数组中的中位数。在没有排序的数组插入一个数字和找出中位数的时间复杂度分别是$O(1)、O(n)$.  
我们也可以在插入数据的时候保持数组有序，由于可能需要移动$O(n)$个数字，因此需要$O(n)$时间才能完成插入操作。在已经排好序的数组中找出中位数是一个简单的操作（数组采用寻址访问），只需要$O(1)$时间就可以完成。  
2.排序链表：
由于是链表结构，在插入数据的时候，为了保持有序性，需要遍历一下链表，因此插入操作的时间复杂度为$O(n)$。如果我们再定义两个指针指向链表中间的节点（如果链表节点个数是奇数个，那么这两个指针指向同一个节点），那么可以在$O(1)$时间内得出中位数。此时时间复杂度和排序的数组是一样的。  
3.BST:
二叉搜索树可以把插入新数据的平均时间降低到$O(logn)$。但是值得注意的是，当二叉树严重不平衡的时候，从而看起来像一个排序的链表时，插入的时间依旧是$O(n)$。为了得到中位数，可以在二叉树节点中添加一个表示子树节点数目的字段，有了这个字段，可以在平均$O(logn)$时间内得到中位数，但最差情况依旧需要$O(n)$.  
4.AVL树：
为了避免BST的不平衡性带来的最差情况，我们可以利用平衡的BST，也就是AVL树。通常AVL树的平衡因子是左右子树高度差，可以稍作修改，改为左右子树节点数目差。有了这个改动，可以用$O(logn)$的时间往AVL树中添加一个新结点，同时用$O(1)$时间得到所有节点的中位数。  
虽然AVL树的时间效率非常高，但要在短短时间内实现AVL树的插入操作还是非常困难的。  
5.最大堆：
如果能够保证数据容器左边的数据都小于右边的数据，那么即使左右两边内部的数据没有排序，也可以根据左边最大的数以及右边最小的数得到中位数。如何快速从一个容器中找出最大数？采用最大堆实现这个想法是在合适不过了，因为位于堆顶的就是最大的数据。  
按照以下思路来解决这个问题：用一个最大堆实现左边的数据容器，用一个最小堆实现右边的数据容器。往堆中插入一个数据的时间效率是$O(logn)$。由于只需要$O(1)$的时间就可以得到位于堆顶的数据，因此得到中位数的时间复杂度是$O(1)$。  

要注意的是：数据要平均分配到两个堆中，因此两个堆中的数据数目之差不能超过1.为了实现平均分配，可以在数据的总数目是偶数时把新数据插入最小堆，否则插入最大堆。
另外，还要保证最大堆中的所有数据都要小于最小堆中的数据。那么数据总数为偶数的时候，根据前面的分配规则，需要将新的数据插入最小堆。如果此时新的数据比最大堆中的一些数据要小，怎么办呢？可以先把这个新的数据插入最大堆，接着把最大堆中最大的数字拿出来插入最小堆。由于插入最小堆的数字是院最大堆中的最大数字，这样就保证了最小堆中的所有数据都大于最大堆中的所有数据。  


最后要说明的是，数据容器（数据结构）的选择，一定与题目要求相关。如果限制时间效率之类的就要考虑更好的数据容器。