### 面向对象
传统的命令式语言有无数重复性代码，虽然函数的诞生减缓了许多重复性，但随着计算机的发展，只有函数依然不够，需要把更加抽象的概念引入计算机才能缓解（而不是解决）这个问题，于是 OOP 应运而生。
面向对象编程是软件工程中的重要思想，它不是一种具体的技术，而是一种综合能力的体现。是将大型工程解耦合、模块化的方法。
#### 重要概念：
- 类： 一群有着相同属性和函数的对象的集合--抽象
    - 类常量: 全大写,下划线连接
    - 抽象类： 一群相似类的集合--不能对象化；在软件工程中充当定义接口的作用
        - 自上而下的设计风格
- 对象： 集合中的一事物务--具体
- 属性： 对象的静态特征
    - 如果一个属性以__开头，我们默认这个属性是私有属性--不希望在类的函数之外的地方被访问和修改
- 函数： 对象的动态能力
    - __init__: 构造函数，自动调用
    - 类函数：@classmethod,第一个参数一般为cls，表示必须传一个类，--最常用的功能是实现不同的init函数--初始化的时候走[类].[类函数]，而不是[类](),同样调用__init__()
    - 成员函数: 第一个参数为self
    - 静态函数：@staticmethod, 不涉及访问、修改这个类的属性--第一个参数没有任何特殊性；一般可以用来做一些简单独立的任务
#### 特性（四要素）
- 抽象： 抽取不同类的相同方法和属性，作为父类的属性和方法
- 封装： 将类的功能包装成一个个独立单元，隐藏内部实现细节--限制访问入口，提高代码的安全性和可维护性
- 继承： 结合抽象类，抽象一群相似类的集合--承接 属性&函数
    - class [classname](parentclass):
    - 继承类在生成对象的时候，不会自动调用父类的构造函数，必须在子类的init（）中显示调用父类的构造函数。执行顺序：子类的构造函数--》父类的构造函数
    - 函数重写： 子类重写父类函数。一种比较好的编码方式--父类中规定子类必须重写的函数，否则raise exception===与抽象函数等价 @abstractmethod--子类必须重写该函数才能使用--但是不会报错
    - python 支持多重继承： 菱形继承问题（一个基类的初始化函数可能被调用两次）--super().init(),python使用C3方法解析顺序，保证一个类只会被初始化一次
- 多态： 基于同一父类的不同子类实例化，即相同的方法-不同的行为--方法重载

#### 注意点
- super()的作用： 自动确定调用的父类方法的顺序，遵循 Python 的方法解析顺序（Method Resolution Order，MRO）。--避免在复杂的多重继承场景中重复调用某些父类的构造函数。
    - 在多重继承中，建议在所有父类中使用 super()，以确保构造函数的正确调用顺序。
    - 如果父类中没有使用 super()，则需要显式调用特定父类的构造函数。
- MRO原理： 
    - 维护一个MRO列表，通过[类名].__mro__输出：先获取直接父类的MRO列表，再合并--确保每个类只出现一次，且每个父类顺序都在子类之前
    - 通过super()调用，会按照MRO列表找到下一个类来调用

### 对象的比较
- “==”比较对象之间的值是否相等
- “is”比较是否是同一个对象，是否指向同一个内存地址
- 注意：
    - python内部会对整型数字（-5~256）维持一个数组，起到缓存作用。这样，创建一个 -5~256 整型数字时，python都会从这个数组中返回对应的引用，而不是重新开辟一块新的内存。
    - 比较一个变量与一个单例时，通常会用is。is的速度效率（仅仅是比较两个变量的id）通常由于==，因为is不能被重载，这样python就不用去寻找程序中是否有其他地方重载了操作符并调用。
### 对象的拷贝
- 浅拷贝：重新分配一块内存，创建一个新的对象，对象中的元素是原对象中子对象的引用
    - 常见的浅拷贝方法，时使用数据类型本身的构造器--如list(),set(),切片操作符:，copy.copy()--适用于任何数据类型
    - 对于元组，使用tuple()或切片操作符，不会创建一份浅拷贝，而是一个指向相同元组的引用
    - 如果原对象中的元素可变，浅拷贝可能会带来潜在问题--
- 深拷贝：重新分配一块内存，创建一个新对象，并且原对象中的元素以递归的方式创建新的子对象。新对象和原对象没有任何关联。
    - copy.deecopy(x)
    - 如果原对象中存在指向自身的引用，程序容易陷入无限循环--在deepcopy的时候不会报错（内部维护了一个字典记录已拷贝对象id，已存在直接返回），但是如果触发比较操作会stack overflow

In [11]:
# python3开始所有类默认继承object
class Document():
    WELCOME_STR = 'Welcome！ The context for this is {}'

    def __init__(self, title, author, context):
        print('init function called')
        self.title = title
        self.author = author
        self.__context = context

    @classmethod
    def create_empty_book(cls, title, author):
        return cls(title=title, author=author, context='nothing')

    @staticmethod
    def get_welcome(context):
        return Document.WELCOME_STR.format(context)

    def get_context_length(self):
        return len(self.__context)

    def intercept_context(self, length):
        self.__context = self.__context[:length]

harry_potter_book = Document('Harry Potter', 'J.K Rowling', '...Forever do not believe any thing is capable of thinking independently')
print(harry_potter_book.author)
print(harry_potter_book.title)
print(harry_potter_book.get_context_length())

harry_potter_book.intercept_context(10)
print(harry_potter_book.get_context_length())
# print(harry_potter_book.__context)

empty_book = Document.create_empty_book('What every man thinks about apart from sex', 'Professor Sheridan Simove')
print(empty_book.get_context_length())
print(empty_book.get_welcome('indeed nothing'))

init function called
J.K Rowling
Harry Potter
72
10
init function called
7
Welcome！ The context for this is indeed nothing


In [9]:
from abc import ABCMeta, abstractclassmethod

class Entity():
    def __init__(self, object_type):
        print('parent class called')
        self.object_type = object_type

    def get_context_length(self):
        raise Exception('get_context_length not implemented')

    def print_title(self):
        print(self.title)

    @abstractclassmethod
    def get_title(self):
        pass

    @abstractclassmethod
    def set_title(self, title):
        pass

class Document(Entity):
    def __init__(self, title, author, context):
        print('Document class init called')
        Entity.__init__(self, 'document')
        self.title = title
        self.author = author
        self.__context = context

    def get_context_length(self):
        return len(self.__context)

    def set_title(self, title):
        self.title = title

class Video(Entity):
    def __init__(self, title, author, video_length):
        print('Video class init called')
        Entity.__init__(self, 'video')
        self.title = title
        self.author = author
        self.__video_length = video_length

    def get_context_length(self):
        return self.__video_length

harry_potter_book = Document('Harry Potter(Book)', 'J.K.Rowling', '...Forever ...')
harry_potter_movie = Video('Harry Potter(Movie)', 'J.K.Rowling', 120)

print(harry_potter_book.object_type)
print(harry_potter_movie.object_type)

harry_potter_book.print_title()
harry_potter_movie.print_title()

print(harry_potter_book.get_context_length())
print(harry_potter_movie.get_context_length())

harry_potter_book.set_title('Harry Potter plus')
harry_potter_book.print_title()



Document class init called
parent class called
Video class init called
parent class called
document
video
Harry Potter(Book)
Harry Potter(Movie)
14
120
Harry Potter plus


#### 搜索引擎demo

In [None]:
class SearchEngineBase(object):
    def __init__(self):
        pass

    def add_corpus(self, file_path):
        with open(file_path, 'r') as fin:
            text = fin.read()
        self.process_corpus(file_path, text)

    def process_corpus(self, id, text):
        raise Exception('process_corpus not implemented.')

    def search(self, query):
        raise Exception('search not implemented.')

class SimpleEngine(SearchEngineBase):
    def __init__(self):
        super(SimpleEngine, self).__init__()
        self.__id_to_texts = {}

    def process_corpus(self, id, text):
        self.__id_to_texts[id] = text

    def search(self, query):
        results = []
        for id, text in self.__id_to_texts.items():
            if query in text:
                results.append(id)
        return results

def main(search_engine):
    for file_path in ['1.txt', '2.txt', '3.txt', '4.txt', '5.txt']:
        search_engine.add_corpus(file_path)

    while True:
        query = input()
        results = search_engine.search(query)
        print('found {} result(s):'.format(len(results)))
        for result in results:
            print(result)

import re

class BOWEngine(SearchEngineBase):
    def __init__(self):
        super(BOWEngine, self).__init__()
        self.__id_to_words = {}

    def process_corpus(self, id, text):
        self.__id_to_words[id] = self.parse_text_to_words(text)

    def search(self, query):
        query_words = self.parse_text_to_words(query)
        results = []
        for id, words in self.__id_to_words.items():
            if self.query_match(query_words, words):
                results.append(id)
        return results
    
    @staticmethod
    def query_match(query_words, words):
        for query_word in query_words:
            if query_word not in words:
                return False
        return True

    @staticmethod
    def parse_text_to_words(text):
        # 使用正则表达式去除标点符号和换行符
        text = re.sub(r'[^\w ]', ' ', text)
        # 转为小写
        text = text.lower()
        # 生成所有单词的列表
        word_list = text.split(' ')
        # 去除空白单词
        word_list = filter(None, word_list)
        # 返回单词的 set
        return set(word_list)

import re

class BOWInvertedIndexEngine(SearchEngineBase):
    def __init__(self):
        print('BOWInvertedIndexEngine init called')
        super(BOWInvertedIndexEngine, self).__init__()
        self.inverted_index = {}

    def process_corpus(self, id, text):
        words = self.parse_text_to_words(text)
        for word in words:
            if word not in self.inverted_index:
                self.inverted_index[word] = []
            self.inverted_index[word].append(id)

    # 最优index堆存储：https://blog.csdn.net/qqxx6661/article/details/77814794
    def search(self, query):
        query_words = list(self.parse_text_to_words(query))
        query_words_index = list()
        for query_word in query_words:
            query_words_index.append(0)
        
        # 如果某一个查询单词的倒序索引为空，我们就立刻返回
        for query_word in query_words:
            if query_word not in self.inverted_index:
                return []
        
        result = []
        while True:
            
            # 首先，获得当前状态下所有倒序索引的 index
            current_ids = []
            
            for idx, query_word in enumerate(query_words):
                current_index = query_words_index[idx]
                current_inverted_list = self.inverted_index[query_word]
                
                # 已经遍历到了某一个倒序索引的末尾，结束 search
                if current_index >= len(current_inverted_list):
                    return result

                current_ids.append(current_inverted_list[current_index])

            # 然后，如果 current_ids 的所有元素都一样，那么表明这个单词在这个元素对应的文档中都出现了
            if all(x == current_ids[0] for x in current_ids):
                result.append(current_ids[0])
                query_words_index = [x + 1 for x in query_words_index]
                continue
            
            # 如果不是，我们就把最小的元素加一
            min_val = min(current_ids)
            min_val_pos = current_ids.index(min_val)
            query_words_index[min_val_pos] += 1

    @staticmethod
    def parse_text_to_words(text):
        # 使用正则表达式去除标点符号和换行符
        text = re.sub(r'[^\w ]', ' ', text)
        # 转为小写
        text = text.lower()
        # 生成所有单词的列表
        word_list = text.split(' ')
        # 去除空白单词
        word_list = filter(None, word_list)
        # 返回单词的 set
        return set(word_list)

search_engine = SimpleEngine()
main(search_engine)

search_engine = BOWEngine()
main(search_engine)

search_engine = BOWInvertedIndexEngine()
main(search_engine)


#### LRU（缓存）实践

In [12]:
!pip install pylru

Collecting pylru
  Downloading pylru-1.2.1-py3-none-any.whl.metadata (13 kB)
Downloading pylru-1.2.1-py3-none-any.whl (16 kB)
Installing collected packages: pylru
Successfully installed pylru-1.2.1


In [1]:
import pylru

# todo: 尝试改进 init调用--去除显示调用
class LRUCache(object):
    def __init__(self, size=32):
        print('LRUCache init called')
        self.cache = pylru.lrucache(size)

    def has(self, key):
        return key in self.cache

    def get(self, key):
        return self.cache[key]

    def set(self, key, value):
        self.cache[key] = value

class BOWInvertedIndexEngineWithCache(BOWInvertedIndexEngine, LRUCache):
    def __init__(self):
        super(BOWInvertedIndexEngineWithCache, self).__init__()
        LRUCache.__init__(self)

    def search(self, query):
        if self.has(query):
            print('cache hit!')
            return self.get(query)
        
        result = super(BOWInvertedIndexEngineWithCache, self).search(query)
        self.set(query, result)

        return result

search_engine = BOWInvertedIndexEngineWithCache()
main(search_engine)

NameError: name 'BOWInvertedIndexEngine' is not defined

In [1]:
t1 = (1, 2, 3)
t2 = tuple(t1)

print(t1 == t2)
print(t1 is t2)

True
True


In [2]:
# 浅拷贝demo
l1 = [[1, 2], (30, 40)]
l2 = list(l1)
l1.append(100)
l1[0].append(3)

print(l1)
print(l2)
l1[1] += (50, 60)
print(l1)
print(l2)


[[1, 2, 3], (30, 40), 100]
[[1, 2, 3], (30, 40)]
[[1, 2, 3], (30, 40, 50, 60), 100]
[[1, 2, 3], (30, 40)]


In [3]:
# 深拷贝demo
import copy
l1 = [[1, 2], (30, 40)]
l2 = copy.deepcopy(l1)
l1.append(100)
l1[0].append(3)

print(l1)
print(l2 )

[[1, 2, 3], (30, 40), 100]
[[1, 2], (30, 40)]


In [7]:
import copy
x = [1]
x.append(x)
print(x)
y = copy.deepcopy(x)
print(y)
print(x==y)

[1, [...]]
[1, [...]]


RecursionError: maximum recursion depth exceeded in comparison