In [13]:
import pandas as pd
import re
import os
import sys
matches_dir = '生成结果/matches_analysis/'
needs_dir = '生成结果/needs_analysis/'
defect_dir = '生成结果/defect_analysis/'

In [14]:
# 从文件中读取文本内容
# 在matches_dir文件夹中查找txt文件
txt_files = [f for f in os.listdir(matches_dir) if f.endswith('.txt')]

if not txt_files:
    print(f"在 {matches_dir} 文件夹中未找到任何txt文件")
    sys.exit(1)
    
# 如果找到多个txt文件，打印列表并使用第一个
if len(txt_files) > 1:
    print(f"在 {matches_dir} 文件夹中找到多个txt文件:")
    for i, txt_file in enumerate(txt_files):
        print(f"{i+1}. {txt_file}")
    print(f"将使用第一个文件: {txt_files[0]}")

# 获取第一个txt文件的完整路径
txt_file_name = txt_files[0]
matches_file_path = os.path.join(matches_dir, txt_file_name)
try:
    with open(matches_file_path, 'r', encoding='utf-8') as file:
        text = file.read()
except UnicodeDecodeError:
    # 如果UTF-8解码失败，尝试其他编码
    with open(matches_file_path, 'r', encoding='gbk') as file:
        text = file.read()

# 初始化列表存储提取的数据
data = []

# 定义当前象限
current_quadrant = ""

# 逐行解析文本
lines = text.strip().split('\n')
i = 0
while i < len(lines):
    line = lines[i].strip()
    
    # 匹配象限标题
    if line.startswith('## '):
        quadrant_match = re.match(r'## 第(.+)象限：(.+)', line)
        if quadrant_match:
            current_quadrant = f"第{quadrant_match.group(1)}象限：{quadrant_match.group(2)}"
    
    # 匹配功能项
    elif re.match(r'^\d+\.\s', line):
        feature = line[line.find('.')+1:].strip()
        
        # 检查下一行是否包含分数信息
        if i+1 < len(lines):
            scores_line = lines[i+1].strip()
            importance_match = re.search(r'重要性分数:\s*([\d\.]+)', scores_line)
            frequency_match = re.search(r'提及频率:\s*([\d\.e\-]+)', scores_line)
            quality_match = re.search(r'文本质量:\s*([\d\.]+)', scores_line)
            
            # 检查下一行是否包含最终得分
            if i+2 < len(lines):
                final_score_line = lines[i+2].strip()
                final_score_match = re.search(r'最终得分:\s*([\d\.]+)', final_score_line)
                
                if importance_match and frequency_match and quality_match and final_score_match:
                    importance = float(importance_match.group(1))
                    frequency = float(frequency_match.group(1))
                    quality = float(quality_match.group(1))
                    final_score = float(final_score_match.group(1))
                    
                    # 添加到数据列表
                    data.append({
                        '象限': current_quadrant,
                        '场景匹配内容': feature,
                        '重要性分数': importance,
                        '提及频率': frequency,
                        '文本质量': quality,
                        '最终得分': final_score
                    })
    i += 1

# 创建DataFrame
df = pd.DataFrame(data)

# 保存为Excel文件
excel_file_name = os.path.splitext(txt_file_name)[0] + '.xlsx'
matches_excel_file = os.path.join(matches_dir, excel_file_name)
df.to_excel(matches_excel_file, index=False)
print(f"将从 {matches_file_path} 读取数据")
print(f"将结果保存到 {matches_excel_file}")
print(f"数据已成功保存到 {matches_excel_file}")

将从 生成结果/matches_analysis/致欧-2025-01-10之后VOC数据_功能场景匹配象限分析_完整列表.txt 读取数据
将结果保存到 生成结果/matches_analysis/致欧-2025-01-10之后VOC数据_功能场景匹配象限分析_完整列表.xlsx
数据已成功保存到 生成结果/matches_analysis/致欧-2025-01-10之后VOC数据_功能场景匹配象限分析_完整列表.xlsx


In [15]:
# 从文件中读取文本内容
#needs_file_path =  os.path.join(needs_dir , '美国站旅行袋销售数据及VOC数据_用户需求象限分析_完整列表.txt')  # 请替换为您的实际文件路径
txt_files = [f for f in os.listdir(needs_dir) if f.endswith('.txt')]

if not txt_files:
    print(f"在 {needs_dir} 文件夹中未找到任何txt文件")
    sys.exit(1)
    
# 如果找到多个txt文件，打印列表并使用第一个
if len(txt_files) > 1:
    print(f"在 {needs_dir} 文件夹中找到多个txt文件:")
    for i, txt_file in enumerate(txt_files):
        print(f"{i+1}. {txt_file}")
    print(f"将使用第一个文件: {txt_files[0]}")

# 获取第一个txt文件的完整路径
txt_file_name = txt_files[0]
needs_file_path = os.path.join(needs_dir, txt_file_name)


try:
    with open(needs_file_path, 'r', encoding='utf-8') as file:
        text = file.read()
except UnicodeDecodeError:
    # 如果UTF-8解码失败，尝试其他编码
    with open(needs_file_path, 'r', encoding='gbk') as file:
        text = file.read()

# 初始化列表存储提取的数据
data = []

# 定义当前象限
current_quadrant = ""

# 逐行解析文本
lines = text.strip().split('\n')
i = 0
while i < len(lines):
    line = lines[i].strip()
    
    # 匹配象限标题
    if line.startswith('## '):
        quadrant_match = re.match(r'## 第(.+)象限：(.+)', line)
        if quadrant_match:
            current_quadrant = f"第{quadrant_match.group(1)}象限：{quadrant_match.group(2)}"
    
    # 匹配功能项
    elif re.match(r'^\d+\.\s', line):
        feature = line[line.find('.')+1:].strip()
        
        # 检查下一行是否包含分数信息
        if i+1 < len(lines):
            scores_line = lines[i+1].strip()
            importance_match = re.search(r'重要性分数:\s*([\d\.]+)', scores_line)
            frequency_match = re.search(r'提及频率:\s*([\d\.e\-]+)', scores_line)
            quality_match = re.search(r'文本质量:\s*([\d\.]+)', scores_line)
            
            # 检查下一行是否包含最终得分
            if i+2 < len(lines):
                final_score_line = lines[i+2].strip()
                final_score_match = re.search(r'最终得分:\s*([\d\.]+)', final_score_line)
                
                if importance_match and frequency_match and quality_match and final_score_match:
                    importance = float(importance_match.group(1))
                    frequency = float(frequency_match.group(1))
                    quality = float(quality_match.group(1))
                    final_score = float(final_score_match.group(1))
                    
                    # 添加到数据列表
                    data.append({
                        '象限': current_quadrant,
                        '未满足需求': feature,
                        '重要性分数': importance,
                        '提及频率': frequency,
                        '文本质量': quality,
                        '最终得分': final_score
                    })
    i += 1

# 创建DataFrame
df = pd.DataFrame(data)

# 保存为Excel文件
#needs_excel_file =  os.path.join(needs_dir, '美国站旅行袋销售数据及VOC数据_用户需求象限分析_完整列表.xlsx')
# 生成对应的Excel文件名（保持基本文件名相同，只改变扩展名）
excel_file_name = os.path.splitext(txt_file_name)[0] + '.xlsx'
needs_excel_file = os.path.join(needs_dir, excel_file_name)

print(f"将从 {needs_file_path} 读取数据")
print(f"将结果保存到 {needs_excel_file}")


df.to_excel(needs_excel_file, index=False)

print(f"数据已成功保存到 {needs_excel_file}")

将从 生成结果/needs_analysis/致欧-2025-01-10之后VOC数据_用户需求象限分析_完整列表.txt 读取数据
将结果保存到 生成结果/needs_analysis/致欧-2025-01-10之后VOC数据_用户需求象限分析_完整列表.xlsx
数据已成功保存到 生成结果/needs_analysis/致欧-2025-01-10之后VOC数据_用户需求象限分析_完整列表.xlsx


In [16]:
# 从文件中读取文本内容
#defect_file_path =  os.path.join(defect_dir , '美国站旅行袋销售数据及VOC数据_缺陷象限分析_完整列表.txt')  # 请替换为您的实际文件路径

txt_files = [f for f in os.listdir(defect_dir) if f.endswith('.txt')]

if not txt_files:
    print(f"在 {defect_dir} 文件夹中未找到任何txt文件")
    sys.exit(1)
    
# 如果找到多个txt文件，打印列表并使用第一个
if len(txt_files) > 1:
    print(f"在 {defect_dir} 文件夹中找到多个txt文件:")
    for i, txt_file in enumerate(txt_files):
        print(f"{i+1}. {txt_file}")
    print(f"将使用第一个文件: {txt_files[0]}")

# 获取第一个txt文件的完整路径
txt_file_name = txt_files[0]
defect_file_path = os.path.join(defect_dir, txt_file_name)


try:
    with open(defect_file_path, 'r', encoding='utf-8') as file:
        text = file.read()
except UnicodeDecodeError:
    # 如果UTF-8解码失败，尝试其他编码
    with open(defect_file_path, 'r', encoding='gbk') as file:
        text = file.read()

# 初始化列表存储提取的数据
data = []

# 定义当前象限
current_quadrant = ""

# 逐行解析文本
lines = text.strip().split('\n')
i = 0
while i < len(lines):
    line = lines[i].strip()
    
    # 匹配象限标题
    if line.startswith('## '):
        quadrant_match = re.match(r'## 第(.+)象限：(.+)', line)
        if quadrant_match:
            current_quadrant = f"第{quadrant_match.group(1)}象限：{quadrant_match.group(2)}"
    
    # 匹配功能项
    elif re.match(r'^\d+\.\s', line):
        feature = line[line.find('.')+1:].strip()
        
        # 检查下一行是否包含分数信息
        if i+1 < len(lines):
            scores_line = lines[i+1].strip()
            importance_match = re.search(r'重要性分数:\s*([\d\.]+)', scores_line)
            frequency_match = re.search(r'提及频率:\s*([\d\.e\-]+)', scores_line)
            quality_match = re.search(r'文本质量:\s*([\d\.]+)', scores_line)
            
            # 检查下一行是否包含最终得分
            if i+2 < len(lines):
                final_score_line = lines[i+2].strip()
                final_score_match = re.search(r'最终得分:\s*([\d\.]+)', final_score_line)
                
                if importance_match and frequency_match and quality_match and final_score_match:
                    importance = float(importance_match.group(1))
                    frequency = float(frequency_match.group(1))
                    quality = float(quality_match.group(1))
                    final_score = float(final_score_match.group(1))
                    
                    # 添加到数据列表
                    data.append({
                        '象限': current_quadrant,
                        '产品缺陷': feature,
                        '重要性分数': importance,
                        '提及频率': frequency,
                        '文本质量': quality,
                        '最终得分': final_score
                    })
    i += 1

# 创建DataFrame
df = pd.DataFrame(data)

# 保存为Excel文件
#defect_excel_file =  os.path.join(defect_dir, '美国站旅行袋销售数据及VOC数据_缺陷象限分析_完整列表.xlsx')


excel_file_name = os.path.splitext(txt_file_name)[0] + '.xlsx'
defect_excel_file = os.path.join(defect_dir, excel_file_name)

print(f"将从 {defect_file_path} 读取数据")
print(f"将结果保存到 {defect_excel_file}")

df.to_excel(defect_excel_file, index=False)

print(f"数据已成功保存到 {defect_excel_file}")

将从 生成结果/defect_analysis/致欧-2025-01-10之后VOC数据_缺陷象限分析_完整列表.txt 读取数据
将结果保存到 生成结果/defect_analysis/致欧-2025-01-10之后VOC数据_缺陷象限分析_完整列表.xlsx
数据已成功保存到 生成结果/defect_analysis/致欧-2025-01-10之后VOC数据_缺陷象限分析_完整列表.xlsx
