# 1. 设置虚拟环境

确保你在虚拟环境中工作，并安装所有必要的依赖项。

In [None]:
# 创建虚拟环境
!python -m venv venv

# 激活虚拟环境
# 对于 macOS/Linux
!source venv/bin/activate

# 安装依赖项
!pip install -r requirements.txt

# 2. 编写和运行单元测试

使用 `unittest` 编写和运行单元测试。

### 示例测试文件 `tests/test_data_preprocess.py`

In [None]:
import unittest
from src.data_preprocess import preprocess_tei_data

class TestPreprocessTeiData(unittest.TestCase):
    def setUp(self):
        # 创建一个临时的 XML 文件内容用于测试
        self.test_content = '''<TEI>
                                <text>
                                    <body>
                                        <p>This is a test sermon.</p>
                                    </body>
                                </text>
                            </TEI>'''

    def test_preprocess_tei_data(self):
        # 使用临时内容进行测试
        with open('test_file.xml', 'w', encoding='utf-8') as f:
            f.write(self.test_content)
        
        result = preprocess_tei_data('test_file.xml')
        self.assertEqual(result, 'This is a test sermon.')

    def tearDown(self):
        # 删除临时的 XML 文件
        import os
        if os.path.exists('test_file.xml'):
            os.remove('test_file.xml')

if __name__ == '__main__':
    unittest.main()

### 运行测试

在项目的根目录下运行以下命令来发现并运行所有测试文件：

In [None]:
!python -m unittest discover -s tests

# 3. 使用 Git 进行版本控制

### 常用 Git 命令

In [None]:
# 初始化 git 仓库
!git init

# 添加所有文件到暂存区
!git add .

# 提交更改
!git commit -m "Initial commit"

# 查看当前状态
!git status

# 查看提交历史
!git log

# 创建新分支
!git checkout -b new-feature

# 合并分支
!git checkout main
!git merge new-feature

# 推送到远程仓库
!git remote add origin <remote-repository-url>
!git push -u origin main

# 4. 使用 Visual Studio Code 进行开发和调试

### 调试配置

在 `.vscode/launch.json` 文件中配置调试设置：

In [None]:
{
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python 调试程序: 当前文件",
            "type": "python",
            "request": "launch",
            "program": "${file}",
            "console": "integratedTerminal"
        }
    ]
}

### 设置断点并启动调试

1. 在代码中设置断点。
2. 点击调试按钮或按 `F5` 键启动调试器。

# 5. 使用 Jupyter Notebook 进行数据分析和可视化

在 `notebooks` 目录中使用 Jupyter Notebook 进行数据分析和可视化。例如，`notebooks/01_preprocessing.ipynb` 用于数据预处理。

In [None]:
# 启动 Jupyter Notebook
!jupyter notebook

# 6. 预处理数据

在 `src/data_preprocess.py` 文件中定义数据预处理函数，并运行预处理脚本。

# 7. 提交代码到 Git

在完成开发和测试后，使用以下命令提交代码到 Git：

In [None]:
!git add .
!git commit -m "Add unit tests for preprocess_tei_data function"
!git push origin main