## Python 读取大文件

In [None]:
# 500G 大文件
f = open()
for line in f:
    pass

- 文件中，只有一行用 {|} 分隔

In [None]:
def my_read_lines(f, newline):
    """
    逐行读取文件内容，处理自定义的换行符并按自定义分隔符返回每一行。

    参数:
    f (file-like object): 输入的文件对象。
    newline (str): 自定义的换行符，用于分隔每一行的内容。

    生成器:
    每次调用 `yield` 会返回文件中的一行（根据自定义的换行符 `newline`）。

    说明:
    该函数会读取文件的内容，将其拆分为由 `newline` 分隔的行，并通过 `yield` 返回每一行。
    如果文件中没有剩余内容，最后会返回剩余的 `buf`。
    """

    # 用于累积从文件中读取的内容。
    buf = ""  
    
    # 无限循环，直到文件读取完毕
    while True:
        # 当 buf 中包含自定义的换行符时，处理并返回这一行内容
        while newline in buf:
            # 查找换行符的位置
            pos = buf.index(newline)
             # 返回从开始到换行符之前的内容作为一行
            yield buf[:pos]
             # 更新 buf，将已处理的部分去除
            buf = buf[pos + len(newline):]
        
        # 从文件中读取 40960 字节（10 个 4096 字节块）
        chunk = f.read(4096 * 10) 
        
        # 如果没有读取到更多内容，返回剩余的 buf 内容并结束循环
        if not chunk:
            yield buf
            break
        
        # 将读取的 chunk 拼接到 buf 中
        buf += chunk

# 使用示例：打开文件并按自定义的换行符逐行打印内容
with open("input.txt") as f:
    for line in my_read_lines(f, "{|}"):
        print(line)

Prior to beginning tutoring sessions
, I ask new students to fill
 out a brief self-assessment
 where they rate their
 understanding of various Python concepts. Some topics ("control flow with if/else" or "defining and using functions") are understood by a majority of students before ever beginning tutoring. There are a handful of topics, however, that almost all
 students report having no knowledge or very limited understanding of. Of these

