# 文档介绍：
- 从zotero导出的医学数据csv文件一共有五个（按照年份）
- 数据清洗时，合并为一个文件更便于处理，这就是本文件所做的事情
- 这个文档处理完后的数据会到`data_process.ipynb`中继续后续处理

In [6]:
import pandas as pd
import glob
import os

## 定义文件路径
- 意思让电脑知道文件的位置

In [7]:
# --- 1. 定义文件路径 ---
# 定义数据文件夹的相对路径
# . 表示当前 Notebook 文件所在的目录
# .. 表示上一级目录
# 假设你的 Notebook 在 'notebooks/' 文件夹下，而数据文件夹 'data/raw/' 
# 在仓库的根目录下，所以需要先回退一级 (..) 再进入 'data/raw/'
data_path = os.path.join(os.getcwd(), '..', 'data', 'raw') 
processed_data_path = os.path.join(os.getcwd(), '..', 'data', 'processed')

In [8]:
# 使用glob找到所有以.csv结尾的文件
# 这个路径是相对于当前 Notebook 文件执行时的工作目录而言的
all_csv_files = glob.glob(os.path.join(data_path, "*.csv"))
# 打印出来检查一下，确保文件都被找到了
print("以下CSV文件将被读取：")
if not all_csv_files:
    print("--- 警告：未找到任何CSV文件！请检查：---")
    print(f"1. notebook 的位置是否正确？ (当前工作目录: {os.getcwd()})")
    print(f"2. 'data/raw/' 文件夹是否在你的仓库根目录下？")
    print(f"3. 'data/raw/' 文件夹内是否包含您要读取的 .csv 文件？")
else:
    for f in sorted(all_csv_files): # 使用 sorted 保证输出顺序一致
        print(f)

以下CSV文件将被读取：
d:\MEDscience_map_of_XJTU\notebook\..\data\raw\pubmed-XianJiaoto-set2021.csv
d:\MEDscience_map_of_XJTU\notebook\..\data\raw\pubmed-XianJiaoto-set2022.csv
d:\MEDscience_map_of_XJTU\notebook\..\data\raw\pubmed-XianJiaoto-set2023.csv
d:\MEDscience_map_of_XJTU\notebook\..\data\raw\pubmed-XianJiaoto-set2024.csv
d:\MEDscience_map_of_XJTU\notebook\..\data\raw\pubmed-XianJiaoto-set2025.csv


## 关键步骤：合并操作

In [9]:
# --- 2. 循环读取并合并 ---
# 创建一个空列表，用来存放每个文件读取后的DataFrame
df_list = []

for file in all_csv_files:
    # 循环读取每一个csv文件
    df_temp = pd.read_csv(file)
    # 将读取的DataFrame添加到列表中
    df_list.append(df_temp)

# 使用pd.concat()函数将列表中的所有DataFrame一次性合并
# ignore_index=True 是非常重要的一步，它会重新生成一套连续的索引，避免索引重复
df_combined = pd.concat(df_list, ignore_index=True)

## 保存合并后的文件

In [12]:
# --- 3. 保存合并后的文件 ---
# 定义新文件的保存路径，使用 processed_data_path
output_filename = os.path.join(processed_data_path, 'zotero_data_combined.csv')
# 将合并后的大文件保存起来
try:
    df_combined.to_csv(str(output_filename), index=False) # to_csv 需要字符串路径
    print(f"\n合并完成！总共包含 {len(df_combined)} 条记录。")
    print(f"数据已保存到: {output_filename}")
except Exception as e:
    print(f"保存文件 {output_filename} 时出错: {e}")
    


合并完成！总共包含 25105 条记录。
数据已保存到: d:\MEDscience_map_of_XJTU\notebook\..\data\processed\zotero_data_combined.csv


## 检查合并后的数据

In [13]:
# --- 4. 检查合并后的数据 ---
# 显示前5行，快速预览
print("\n合并后数据预览：")
print(df_combined.head())

# 显示数据信息，检查列名、非空值和数据类型
print("\n合并后数据信息：")
df_combined.info()


合并后数据预览：
        Key       Item Type  Publication Year  \
0  4WPZ4WZA  journalArticle              2022   
1  8BVI224Y  journalArticle              2021   
2  XUSNP58T  journalArticle              2021   
3  H4XWF2NY  journalArticle              2021   
4  EKJAB2RB  journalArticle              2021   

                                              Author  \
0  Sun, Lei; Wang, Hua; Yu, Shanshan; Zhang, Lin;...   
1                Zhou, Lina; Ma, Xiancang; Wang, Wei   
2  Jin, Xuting; Ren, Jiajia; Li, Ruohan; Gao, Ya;...   
3  Feng, Wei; Wang, Jian; Yan, Xin; Zhang, Qianqi...   
4  Shao, Can; Wang, Xiaomeng; Ma, Qingyan; Zhao, ...   

                                               Title  \
0  Herceptin induces ferroptosis and mitochondria...   
1  Relationship between Cognitive Performance and...   
2  Global burden of upper respiratory infections ...   
3  ERK/Drp1-dependent mitochondrial fission contr...   
4  Analysis of risk factors of non-suicidal self-...   

                     

## 下一步
- 进入`data_process.ipynb`继续下一步数据处理