In [7]:
import os
import pandas as pd


In [8]:
def merge_csv_files(input_folder, output_file):
    """
    合并指定文件夹中的多个 CSV 文件，生成一个合并后的文件。
    
    参数:
        input_folder (str): 包含 CSV 文件的文件夹路径
        output_file (str): 合并后保存的文件路径
    """
    # 获取文件夹中所有的 CSV 文件
    csv_files = [os.path.join(input_folder, file) for file in os.listdir(input_folder) if file.endswith(".csv")]
    
    # 初始化一个空的列表，用于存储所有数据框
    data_frames = []

    # 遍历每个 CSV 文件并加载为 DataFrame
    for csv_file in csv_files:
        print(f"正在加载文件: {csv_file}")
        df = pd.read_csv(csv_file)
        data_frames.append(df)

    # 合并所有 DataFrame
    combined_df = pd.concat(data_frames, ignore_index=True)

    # 保存到输出文件
    combined_df.to_csv(output_file, index=False)
    print(f"所有文件已合并并保存到: {output_file}")


In [9]:
# 示例用法
input_folder = "/share/home/pwmat/Huggingface_Model_Downloades/model_test_ChemDFM-13B-v1.0/!!!encode_and_get_embedding/ChemDFM_get_targetwords_description&vectors"  # 替换为包含 CSV 文件的文件夹路径
output_file = "merged_vectors.csv"  # 替换为合并后的文件路径
merge_csv_files(input_folder, output_file)

正在加载文件: /share/home/pwmat/Huggingface_Model_Downloades/model_test_ChemDFM-13B-v1.0/!!!encode_and_get_embedding/ChemDFM_get_targetwords_description&vectors/expertise_description_vectors.csv
正在加载文件: /share/home/pwmat/Huggingface_Model_Downloades/model_test_ChemDFM-13B-v1.0/!!!encode_and_get_embedding/ChemDFM_get_targetwords_description&vectors/generalization_description_vectors.csv
所有文件已合并并保存到: merged_vectors.csv


In [14]:
import pandas as pd
from sklearn.decomposition import PCA

# 加载 CSV 文件
input_file = "merged_vectors.csv"  # 替换为您的实际文件路径
data = pd.read_csv(input_file)

# 提取向量部分（从第二列开始）
description_vectors = data.iloc[:, 1:].values  # 提取向量部分为 NumPy 数组

# 检查数据维度
print(f"数据维度: {description_vectors.shape}")  # 应为 (num_descriptions, 5120)

# 使用 PCA 提取主成分
pca = PCA(n_components=1)  # 仅提取第一主成分
principal_component = pca.fit_transform(description_vectors)  # 获取每个向量在主成分方向的投影

# 提取第一主成分向量
principal_vector = pca.components_[0]  # 主成分向量

print("Photovoltaic materials 的语义特征向量 (PCA):")
print(principal_vector)
print("向量维度:", principal_vector.shape)

# 准备保存的 DataFrame，第一列为 "Photovoltaic materials"，后续列为向量值
output_data = pd.DataFrame(
    data=[["Photovoltaic materials"] + principal_vector.tolist()],  # 插入词汇及向量
    columns=["Word"] + [f"Dim_{i}" for i in range(len(principal_vector))]
)

# 保存到 CSV 文件
output_file = "principal_vector.csv"
output_data.to_csv(output_file, index=False)
print(f"主成分向量已保存到: {output_file}")


数据维度: (40, 5120)
Photovoltaic materials 的语义特征向量 (PCA):
[0.02587777 0.00020042 0.00128274 ... 0.02206823 0.02194165 0.00735359]
向量维度: (5120,)
主成分向量已保存到: principal_vector.csv
