### Python 基础算法练习（Hadoop + Spark + MySQL + Python）
## <center>2 >>> 数据结构+基本算法：python 线性逻辑 vs 非线性逻辑</center>
### <center>算法验证：张君颖  ； 报告日期：2021.1.21</center>
  <font color=blue><center>作者邮箱：zhang.jun.ying@outlook.com</center></font>   
  
  <font color=blue><center>项目源代码、数据、自定义函数已上传GitHub：</center></font>   
    
<font color=blue><center>https://github.com/lotbear/Python-Financial-investment-strategy</center></font>

### >>> 线性逻辑结构 + 顺序存储 or 链式存储 （数据的物理结构）
线性逻辑数据：栈、队列、哈希表，可选择顺序存储 或 链式存储    

线性逻辑 + 顺序存储 ：数组    

线性逻辑 + 链式存储 ： 链表

### >>> 栈  vs 队列
栈 LIFO ：last in first out 后进先出，栈底封闭，数据从栈顶进出。   

栈的应用：由于数据输入顺序和输出顺序相反，栈常被用于“历史回溯”场景，如“面包屑导航”，使用户浏览页面时可以轻松回溯到上一级页面。  

队列 FIFO：first in first out 先进先出，数据队尾进，队头出。   

队列的应用：由于数据输入和输出顺序相同，队列常用于“历史重演”；在多线程任务中，公平锁的等待队列就是按访问顺序决定线程在队列中的次序。

### >>> 我们自定义一个队列类 MyQueue:
python 中 collection.deque 双边队列（同时具有队列和栈的性质）   

官方文档：https://docs.python.org/2/library/collections.html#collections.deque

In [1]:
class MyQueue:
    def __init__(self,capacity):
        self.list=[None]*capacity
        self.front=0
        self.rear=0
        
    def enqueue(self,element):
        if (self.rear+1)%len(self.list)==self.front:
            raise Exception('队列已满！')
        self.list[self.rear]=element
        self.rear=(self.rear+1)%len(self.list)
        
    def dequeue(self):
        if self.rear==self.front:
            raise Exception('队列已满！')
        dequeue_element=self.list[self.front]
        self.front=(self.front+1)%len(self.list)
        return dequeue_element
    
    def output(self):
        i=self.front
        while i !=self.rear:
            print(self.list[i])
            i=(i+1)%len(self.list)

In [2]:
myQueue=MyQueue(6)
print('初始队列size：',len(myQueue.list))
myQueue.enqueue(1)
myQueue.enqueue(3)
myQueue.enqueue(5)
myQueue.enqueue('lotbear')
myQueue.enqueue('lotbear')
print('插入后队列size：',len(myQueue.list))
print(myQueue.output())
print('='*30)
myQueue.dequeue()
myQueue.dequeue()
myQueue.enqueue(8)
myQueue.enqueue(9)
myQueue.output()

初始队列size： 6
插入后队列size： 6
1
3
5
lotbear
lotbear
None
5
lotbear
lotbear
8
9


### >>> 哈希表（字典）
key-value 的函数关系映射，使得哈希表查询数据的时间复杂度接近于 O（1）   

哈希表本质上也是一个数组，数组是通过顺序下标查询数据，而哈希表是通过数据对应的key（通常为字符串）来锁定。   

在 python 中，哈希表对应的集合叫 字典（dict）  

哈希函数 将 value 的 key 转变为一个整型变量 hash值，再将 hash值进行取模运算，获得数组的下标 index k  

key-value 数组按 index 进行存储，若遇到 “ 撞衫 ”——> “ 哈希冲突 ”，将通过 “ 开发寻址法 ” 或 “ 链表法 ” 进行存储

In [3]:
print('"lotbear" 的哈希值：')
hash('lotbear')

"lotbear" 的哈希值：


-1527740003696082476

In [4]:
print('对"lotbear" 哈希值取模运算：')
index=hash('lotbear')%6
index

对"lotbear" 哈希值取模运算：


4

In [5]:
print('"2020-01-22" 的哈希值：')
hash('2020-01-22')

"2020-01-22" 的哈希值：


-6537018285809882149

In [6]:
print('对"2020-01-22" 哈希值取模运算：')
index=hash('2020-01-22')%6
index

对"2020-01-22" 哈希值取模运算：


5

python 中的 “ 字典 dict ” 创建及操作

In [7]:
a={'lotbaer':'长尾熊','2020-01-22':'Friday','python':119}
print(type(a))
a

<class 'dict'>


{'lotbaer': '长尾熊', '2020-01-22': 'Friday', 'python': 119}

In [8]:
a['python'] # 通过 key 查找 value

119

In [9]:
a['python']=120 # 更新数值
a[1]=1 # 插入新的 key-value
a[2]=2
a[3]=3
print('a 字典 key-value 数据对数：',len(a))
a.items() # 也可分别查 a.keys() ； a.values()

a 字典 key-value 数据对数： 6


dict_items([('lotbaer', '长尾熊'), ('2020-01-22', 'Friday'), ('python', 120), (1, 1), (2, 2), (3, 3)])

### >>> 非线性逻辑（二叉树）+ 顺序存储 or 链式存储 
二叉树 + 链式存储：每个节点包含三个部分 —— data变量，left 指针，right 指针  

二叉树 + 顺序存储：如二叉堆（一种特殊的完全二叉树），按层级顺序，将树节点放到数组中对应的位置上：    

<center> 父节点的下标为 n , 左孩子节点下标为 2 * n + 1</center>    

<center> 左孩子节点的下标为 n , 父节点下标为 （n + 1）/ 2</center>    

二叉树的应用：二叉查找树（时间复杂度为 O ( log n )），机器学习中的决策树、随机森林、Xgboost等

In [10]:
class Tree:
    def __init__(self,kids,next=None):
        self.kids=self.val=kids
        self.next=next

In [11]:
t=Tree(Tree('L',Tree('O',Tree('T',Tree('B',Tree('E',Tree('A',Tree('R'))))))))
t.kids.next.val

'O'

In [12]:
t.kids.next.next.val

'T'

### >>> 自定义二叉查找树，功能实现 前、中、后需遍历

In [13]:
a=[1,2,3,4,5]
print(a.pop(0))
print(a.pop(0))
print(a.pop(0))

1
2
3


In [14]:
class TreeNode:
    def __init__(self,data):
        self.data=data
        self.left=None
        self.right=None

def create_binary_tree(input_list=[]):
    """
    构建二叉树
    """
    if input_list is None or len(input_list)==0:
        return None
    data=input_list.pop(0)
    if data is None:
        return None
    node=TreeNode(data)
    node.left=create_binary_tree(input_list)
    node.right=create_binary_tree(input_list)
    return node

def pre_order_traversal(node):
    """
    前序遍历：根节点 -> 左子树 -> 右子树
    """
    if node is None:
        return
    print(node.data)
    pre_order_traversal(node.left)
    pre_order_traversal(node.right)
    return node

def in_order_traversal(node):
    """
    中序遍历：左子树 -> 根节点 -> 右子树
    """
    if node is None:
        return
    in_order_traversal(node.left)
    print(node.data)
    in_order_traversal(node.right)
    return node

def post_order_traversal(node):
    """
    后序遍历：左子树 -> 右子树 -> 根节点 
    """
    if node is None:
        return
    post_order_traversal(node.left)
    post_order_traversal(node.right)
    print(node.data)
    return node

In [15]:
my_input_list=list(['L','O','T','B','E','A','R',None,'2021','0122'])
root=create_binary_tree(my_input_list)
print('前序遍历：')
pre_order_traversal(root)
print('='*30)
print('中序遍历：')
in_order_traversal(root)
print('='*30)
print('后序遍历：')
post_order_traversal(root)

前序遍历：
L
O
T
B
E
A
R
2021
0122
中序遍历：
R
0122
2021
A
E
B
T
O
L
后序遍历：
0122
2021
R
A
E
B
T
O
L


<__main__.TreeNode at 0x1e07352c1d0>

###  非递归法实现二叉树 前序遍历 ( 利用 栈 数据结构 )

In [16]:
def pre_oder_traversal_with_stack(node):
    stack=[]
    while node is not None or len(stack)>0:
        print(node.data)
        stack.append(node)
        node=node.left
    if len(stack)>0:
        node=stack.pop()
        node=node.right
    return node

### >>> 二叉堆
最大堆：任何一个父节点的值，都大于等于它左孩子/右孩子节点的值。   

最小堆：任何一个父节点的值，都小于等于它左孩子/右孩子节点的值。   

二叉堆的插入、删除操作的时间复杂度为 O（log n）; 二叉堆的构建操作时间复杂度为 O（ n ）

### 自定义函数，实现二叉堆插入 / 删除节点功能

In [17]:
def up_adjust(array=[]):
    """
    二叉堆的尾节点上浮操作
    """
    child_index=len(array)-1
    parent_index=(child_index -1)//2
    # temp 保存插入的叶子节点值，用于最后的赋值
    temp=array[child_index]
    while child_index > 0 and temp < array[parent_index]:
        # 无须真正交换，单向赋值即可
        array[child_index]=array[parent_index]
        child_index=parent_index
        parent_index=(parent_index -1)//2
    array[child_index]=temp
    
def down_adjust(parent_index,length,array=[]):
    """
    二叉堆的节点下沉操作
    """
    # temp 保存父节点的值，用于最后的赋值
    temp=array[parent_index]
    child_index=2*parent_index + 1
    while child_index < length:
        # 如果有右孩子，且右孩子的值小于左孩子，则定位到右孩子
        if child_index + 1 < length and array[child_index +1] < array[child_index]:
            child_index += 1
        # 如果父节点的值小于任何一个孩子的值，直接跳出
        if temp <= array[child_index]:
            break
        # 无须真正交换，单向赋值即可
        array[parent_index]=array[child_index]
        parent_index=child_index
        child_index= 2*child_index +1
    array[parent_index]=temp
    
def build_heap(array=[]):
    """
    二叉堆的构建操作
    """
    # 从最后一个非子叶节点开始，依次下沉调整
    for i in range((len(array)-2)//2,-1,-1):
        down_adjust(i,len(array),array)

In [18]:
my_array=list([9,7,6,8,3,5,2])
up_adjust(my_array)
print(my_array)
my_array=list([7,3,1,5,8])
build_heap(my_array)
print(my_array)

[2, 7, 9, 8, 3, 5, 6]
[1, 3, 7, 5, 8]


In [19]:
for i in range(5//2,-1,-1):
    print(i)

2
1
0


### 二叉堆实现：最大优先队列 vs 最小优先队列
最大优先队列：无论入队顺序，最大的元素优先出队   

最小优先队列：无论入队顺序，最小的元素优先出队   

### 优先队列代码实现

In [20]:
class PriortyQueue:
        
    def __init__(self):
        self.array=[]
        self.size=0
        
    def enqueue(self,element):
        self.array.append(element)
        self.size += 1
        self.up_adjust()
        
    def dequeue(self):
        if self.size < 0:
            raise Exception('队列为空！')
        head=self.array[0]
        self.array[0]=self.array[self.size-1]
        self.size -=1
        self.down_adjust()
        return head
    
    def up_adjust(self):
        child_index=self.size-1
        parent_index=(child_index -1)//2
        # temp 保存插入的叶子节点值，用于最后的赋值
        temp=self.array[child_index]
        while child_index > 0 and temp < self.array[parent_index]:
            # 无须真正交换，单向赋值即可
            self.array[child_index]=self.array[parent_index]
            child_index=parent_index
            parent_index=(parent_index -1)//2
        self.array[child_index]=temp  
        
    def down_adjust(self):
        parent_index=0
        # temp 保存父节点的值，用于最后的赋值
        temp=self.array[parent_index]
        child_index=1
        while child_index < self.size:
            # 如果有右孩子，且右孩子的值大于左孩子，则定位到右孩子
            if child_index + 1 < self.size and self.array[child_index +1] > self.array[child_index]:
                child_index += 1
            # 如果父节点的值大于任何一个孩子的值，直接跳出
            if temp >= self.array[child_index]:
                break
            # 无须真正交换，单向赋值即可
            self.array[parent_index]=self.array[child_index]
            parent_index=child_index
            child_index= 2*child_index +1
        self.array[parent_index]=temp

In [21]:
queue=PriortyQueue()
queue.enqueue(3)
queue.enqueue(9)
queue.enqueue(2)
queue.enqueue(12)
queue.enqueue(5)
print('队列输出：',queue.array)
print('循环 LIFO:',queue.dequeue())
print('循环 LIFO:',queue.dequeue())
print('循环 LIFO:',queue.dequeue())

队列输出： [2, 5, 3, 12, 9]
循环 LIFO: 2
循环 LIFO: 9
循环 LIFO: 12
