In [1]:
import jsonlines  
import csv        
import itertools  

- **Module import**:  
  - `jsonlines` Used to read JSON Lines format files line by line.  
  - `csv` is used to write the processed data to a CSV file.  
  - `islice` in `itertools` is used to read data in chunks to prevent loading the whole large file at once.

- **File manipulation**:  
  Use nested `with` statements to open both a JSON Lines file (for reading) let's look what it in the raw data.

In [3]:
with jsonlines.open('/egr/research-slim/shared/LLM_data/mobvoi_seq_monkey_general_open_corpus.jsonl') as reader:
    chunk = list(itertools.islice(reader, 10))
    print(chunk[0])

{'text': '在查处虚开增值税专用发票案件中，常常涉及进项留抵税额和税款损失的认定和处理。在计算税款损失时，要不要将进项留抵税额包括在内？\n对此，实务中存在意见分歧。\n有人主张归并，即计算税款损失时包括进项留抵税额；\n有人主张剥离，即计算税款损失时剔除进项留抵税额。分析这个问题，需要确定进项留抵税额与税款损失之间是什么关系。\n理清这二者之间的关系，首先需要了解增值税的概念和其抵扣机制。增值税是以商品（货物、服务等）在流转过程中产生的增值额作为计税依据而征收的一种流转税。为避免重复征税，在增值税中存在抵扣链条机制。\n一般而言，交易上游企业缴纳的税额，交易下游企业可以对相应的税额进行抵扣。\n对增值税一般纳税人来说，其购进货物、服务等取得增值税专用发票，发票上的税额是进项税额。\n其出售货物、服务等，向购买方开具增值税专用发票，发票的税额是销项税额。\n一般情况下，销项税额减去进项税额的金额是应纳税额，企业根据应纳税额按期申报纳税。\n其次需要了解进项留抵税额的概念及产生原因。\n在计算销项税额和进项税额的差额时，有时会出现负数，即当期进项税额大于当期销项税额。这个差额在当期未实现抵扣，为进项留抵税额，在以后纳税人有销项税额时再进行抵扣。\n企业产生进项留抵税额的主要原因是其进项税额和销项税额时间上的不一致。\n例如，企业前期集中采购货物和服务，投资大，销项税率低于进项税率等。\n从税款抵扣的角度看，进项留抵税额只是购进的这部分进项税额参与到增值税应纳税额的计算过程中，但是其对应的进项税额抵扣还未真正实现，一般要等到其未来有相应的销项税额时，才能真正实现进项税额抵扣。\n可见，进项留抵税额处于不确定状态，能否抵扣受到很多因素影响，例如企业经营中断，没有销项税额，这时进项留抵税额就无法实现抵扣。但如果企业按照税收政策规定申请进项留抵退税，进项税额抵扣就随之实现。\n最后需要了解税款损失的概念。\n税款损失，通常是指因虚开增值税专用发票，导致国家税款被骗或者流失的金额。关于税款损失，实务中有多种表述。\n例如，北京大学法学院教授陈兴良曾谈到虚开行为本身不会造成国家税款损失，只有利用发票抵扣时才会造成国家税款损失。刘兵等编著的《虚开增值税专用发票案例司法观点和案例解析》一书中提到：“给国家税款造成损失的数额，实际上就是被骗取的国家税款在侦查终结以前无法追回的部


In . /code/data_process.py and write the eligible content to a CSV file. The main steps are as follows:
1. **Open JSON Lines file**: Use `jsonlines` module to read large files, avoid loading into memory at once. 2.
2. **Read in chunks**: Use `itertools.islice` to read data in chunks, reading `chunk_size` records at a time.
3. **Data processing**:
   - Iterate through the records in each chunk and extract the `text` field.
   - If the text is longer than 512 characters, the record is skipped.
   - Write the eligible text to a CSV file. 4.
4. **Error Handling**: For `UnicodeDecodeError` error during reading, print the error message and skip the error line. 5.
5. **Progress Output**: after each block of data is processed, output the index range of the block.

---

在./code/data_process.py 中并将符合条件的内容写入 CSV 文件。主要步骤如下：

1. **打开 JSON Lines 文件**：使用 `jsonlines` 模块读取大文件，避免一次性加载到内存中。
2. **分块读取**：利用 `itertools.islice` 按块读取数据，每次读取 `chunk_size` 条记录。
3. **数据处理**：
   - 遍历每个块中的记录，提取 `text` 字段。
   - 如果文本长度大于 512 个字符，则跳过该记录。
   - 将符合条件的文本写入 CSV 文件中。
4. **错误处理**：对于读取过程中出现的 `UnicodeDecodeError` 错误，打印错误信息并跳过错误行。
5. **进度输出**：每处理完一块数据后，输出该块的索引范围。
