# 词云生成器命令行参数测试

本notebook用于测试main.py中不同命令行参数组合的运行效果。

In [1]:
import sys
import argparse
from pathlib import Path
from main import main
from config import DOCS_DIR



## 测试参数解析函数

In [2]:
def test_args(args_list):
    """测试不同命令行参数组合"""
    # 备份原始参数
    orig_argv = sys.argv
    
    try:
        # 设置测试参数
        sys.argv = ['main.py'] + args_list
        print(f"\n测试参数: {' '.join(sys.argv)}")
        
        # 运行主函数
        main()
        
    except Exception as e:
        print(f"运行出错: {e}")
    finally:
        # 恢复原始参数
        sys.argv = orig_argv

## 测试默认参数

In [3]:
# 使用默认参数运行
test_args([])


测试参数: main.py


2024-11-07 15:38:02,117 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2023年广州市政府工作报告 - 广州市人民政府门户网站.pdf
2024-11-07 15:38:18,210 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2022年广州市政府工作报告 - 广州市人民政府门户网站.pdf
[32m2024-11-07 15:38:18.249[0m | [1mINFO    [0m | [36measyofd.ofd[0m:[36mto_pdf[0m:[36m72[0m - [1mto_pdf[0m


page_size_details [[], []]


2024-11-07 15:38:34,039 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/广州市职工生育保险待遇申请表(10月启用，带配送地址，空表) 副本.ofd
2024-11-07 15:38:48,773 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2024年广州市政府工作报告 - 广州市人民政府门户网站.pdf
2024-11-07 15:38:48,875 - utils - INFO - Saved keywords to Excel: output/document_keywords_llm.xlsx
2024-11-07 15:38:50,044 - utils - INFO - Generated word cloud: output/wordcloud_llm.png
2024-11-07 15:38:50,045 - utils - INFO - 词云生成完成


## 测试LLM方法(Deepseek)

In [4]:
# 使用Deepseek API
test_args([
    '--method', 'llm',
    '--api-type', 'deepseek',
    '--docs-dir', str(DOCS_DIR),
    '--mask', 'masks/cloud.png'
])




测试参数: main.py --method llm --api-type deepseek --docs-dir /Users/tomllt/python_projects/wordcloud/docs --mask masks/cloud.png


2024-11-07 15:39:05,148 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2023年广州市政府工作报告 - 广州市人民政府门户网站.pdf
2024-11-07 15:39:20,574 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2022年广州市政府工作报告 - 广州市人民政府门户网站.pdf
[32m2024-11-07 15:39:20.609[0m | [1mINFO    [0m | [36measyofd.ofd[0m:[36mto_pdf[0m:[36m72[0m - [1mto_pdf[0m


page_size_details [[], []]


2024-11-07 15:39:36,120 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/广州市职工生育保险待遇申请表(10月启用，带配送地址，空表) 副本.ofd
2024-11-07 15:39:50,853 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2024年广州市政府工作报告 - 广州市人民政府门户网站.pdf
2024-11-07 15:39:50,877 - utils - INFO - Saved keywords to Excel: output/document_keywords_llm.xlsx
2024-11-07 15:39:52,152 - utils - INFO - Generated word cloud: output/wordcloud_llm.png
2024-11-07 15:39:52,152 - utils - INFO - 词云生成完成


## 测试LLM方法(Ollama)

In [8]:
# 使用Ollama API
test_args([
    '--method', 'llm', 
    '--api-type', 'ollama',
    '--docs-dir', str(DOCS_DIR),
    '--mask', 'masks/circle.png'
])




测试参数: main.py --method llm --api-type ollama --docs-dir /Users/tomllt/python_projects/wordcloud/docs --mask masks/circle.png


2024-11-07 15:43:28,557 - utils - INFO - Retry 1: Invalid format, attempting correction
2024-11-07 15:43:39,362 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2023年广州市政府工作报告 - 广州市人民政府门户网站.pdf
2024-11-07 15:44:13,965 - utils - INFO - Retry 1: Invalid format, attempting correction
2024-11-07 15:44:20,568 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/2022年广州市政府工作报告 - 广州市人民政府门户网站.pdf
[32m2024-11-07 15:44:20.603[0m | [1mINFO    [0m | [36measyofd.ofd[0m:[36mto_pdf[0m:[36m72[0m - [1mto_pdf[0m


page_size_details [[], []]


2024-11-07 15:44:36,026 - utils - INFO - Processed document: /Users/tomllt/python_projects/wordcloud/docs/广州市职工生育保险待遇申请表(10月启用，带配送地址，空表) 副本.ofd
2024-11-07 15:45:12,113 - utils - INFO - Retry 1: Invalid format, attempting correction
2024-11-07 15:45:22,549 - utils - INFO - Retry 2: Invalid format, attempting correction
2024-11-07 15:45:30,636 - utils - ERROR - Maximum retries reached, failed to get valid response
2024-11-07 15:45:30,670 - utils - INFO - Saved keywords to Excel: output/document_keywords_llm.xlsx
2024-11-07 15:45:31,844 - utils - INFO - Generated word cloud: output/wordcloud_llm.png
2024-11-07 15:45:31,845 - utils - INFO - 词云生成完成


## 测试TF-IDF方法

In [9]:
# 使用TF-IDF方法
test_args([
    '--method', 'tfidf',
    '--docs-dir', str(DOCS_DIR),
    '--mask', 'masks/square.png'
])

2024-11-07 16:05:37,626 - utils - INFO - Read document: /Users/tomllt/python_projects/wordcloud/docs/2023年广州市政府工作报告 - 广州市人民政府门户网站.pdf
2024-11-07 16:05:37,686 - utils - INFO - Read document: /Users/tomllt/python_projects/wordcloud/docs/2022年广州市政府工作报告 - 广州市人民政府门户网站.pdf
[32m2024-11-07 16:05:37.700[0m | [1mINFO    [0m | [36measyofd.ofd[0m:[36mto_pdf[0m:[36m72[0m - [1mto_pdf[0m



测试参数: main.py --method tfidf --docs-dir /Users/tomllt/python_projects/wordcloud/docs --mask masks/square.png
page_size_details [[], []]


2024-11-07 16:05:37,760 - utils - INFO - Read document: /Users/tomllt/python_projects/wordcloud/docs/广州市职工生育保险待遇申请表(10月启用，带配送地址，空表) 副本.ofd
2024-11-07 16:05:37,816 - utils - INFO - Read document: /Users/tomllt/python_projects/wordcloud/docs/2024年广州市政府工作报告 - 广州市人民政府门户网站.pdf
2024-11-07 16:05:37,818 - utils - ERROR - Error extracting keywords: The 'stop_words' parameter of TfidfVectorizer must be a str among {'english'}, an instance of 'list' or None. Got {'批项', 'doing', 'possible', 'usually', 'because', '也就是说', '情', '旅', '着重', "wouldn't", '慢说', '人', '哪儿', '和融', '［④ｂ］', '五次', '病', '有限公司', '从优', '至今', '紧接着', '国民经济', 'self', '更为', 'hereafter', '这时', '您是', '与否', '决定性', '［⑤］］', 'ô', '底蕴', '党建', '泛珠', '长期以来', '非常', '????֮', '三番五次', 'across', '康', '德', '期望', "they'd", '中等', '复苏', '评价', 'apart', '大多', '［⑤ｆ］', '城', 'regardless', '哎', '另一方面', '从', '叠加', '逐步', '背靠背', '停车位', '次第', '迈上', '＜φ', '获', 'for', '适宜', 'everywhere', 'his', '固定资产', '4', '普惠性', '别管', '营业执照', '除去', '思想道德', 'him', '理当', '－－', '还是

## 测试自定义文档目录

In [7]:
# 指定其他文档目录
custom_docs_dir = Path('custom_docs')
test_args([
    '--method', 'tfidf',
    '--docs-dir', str(custom_docs_dir)
])

2024-11-07 15:42:45,175 - utils - ERROR - Documents directory not found: custom_docs
2024-11-07 15:42:45,176 - utils - INFO - 词云生成完成



测试参数: main.py --method tfidf --docs-dir custom_docs
