# 数据清洗

### 先读取标题行,和看看前100行数据的结构

In [1]:
import pandas as pd

# 数据路径
data_path = "E:/solid-state patent data/csv2025-02-06-12-56-40.csv"

try:
    # 读取数据
    df = pd.read_csv(data_path, encoding='utf-8', low_memory=False)
    
    # 输出标题行（列名）
    print("列名:", df.columns.tolist())
    
    # 提取前100行数据
    df_first_100 = df.head(100)
    
    # 定义输出文件路径
    output_path = "E:/solid-state patent data/first_100_rows.xlsx"
    
    # 将前100行数据保存为 .xlsx 文件
    df_first_100.to_excel(output_path, index=False, engine='openpyxl')
    
    print(f"前100行数据已成功保存到 {output_path}")

except Exception as e:
    print("读取或处理数据时出错:", e)

列名: ['公开号', '标题', '标题 - DWPI', '优先权号', '优先权号/优先权日 - DWPI', '优先权日', '优先权日 - DWPI', '申请号', '申请日期', '公开日期', '估计的截止日期', '估计截止日期因素 - 放弃权项', '估计截止日期因素 - 估计的最早实际申请日期', '估计截止日期因素 - 估计的期末放弃前专利', '估计截止日期因素 - 期末放弃最早的估计申请日期 ', '估计截止日期因素 - 期末放弃前专利截止日期', '估计截止日期因素 - 35 U.S.C. 专利有效期调整', '估计截止日期因素 - 35 USC 156 有效期 ', '估计截止日期因素 - 公开日期', '估计截止日期因素 - 外观设计专利有效期', '估计截止日期因素 - 授权后专利有效期调整 (PTA)', '估计截止日期因素 - 补充保护证书 (SPC) 有效期', '估计截止日期因素 - 已撤回项文字标识', '估计截止日期终止因素', '预计剩余有效期', '失效/有效', '失效/有效 DWPI 同族专利状态', '失效/有效 Inpadoc 同族专利状态', 'IPC - 现版', 'IPC - 现版 - DWPI', '专利权人/申请人', '当前专利权人 - 美国', '优化的专利权人', '终属母公司', '日本 F Term', '日本 FI 分类号', '项目编号', '标题 (英语)', '摘要 (英语)', '权利要求 (英语)', '说明书 (英语) (30', '000 条记录限制)', '公开年', '公开月', '优先权日 - 最早', 'PCT 申请日期', 'PCT 公开号', 'IPC 大类组', 'IPC 部', 'IPC 大类']
前100行数据已成功保存到 E:/solid-state patent data/first_100_rows.xlsx


数据清洗掉缺失值多于10%的列，并提取前一百行检查

In [2]:
import pandas as pd

# 数据路径
data_path = "E:/solid-state patent data/csv2025-02-06-12-56-40.csv"
cleaned_data_path = "E:/solid-state patent data/csv_cleaned-1_2025-02-06-12-56-40.csv"
excel_output_path = "E:/solid-state patent data/first_100_rows-cleaned.xlsx"

try:
    # 读取数据
    df = pd.read_csv(data_path, encoding='utf-8', low_memory=False)
    
    # 输出标题行（列名）
    print("原始列名:", df.columns.tolist())
    
    # 计算每列的缺失值比例
    missing_ratio = df.isnull().mean()
    
    # 筛选出缺失值比例小于等于 5% 的列
    selected_columns = missing_ratio[missing_ratio <= 0.05].index.tolist()
    
    # 强制保留 '摘要 (英语)' 列，即使其缺失值比例超过 5%
    if '摘要 (英语)' in df.columns and '摘要 (英语)' not in selected_columns:
        selected_columns.append('摘要 (英语)')
    
    # 提取符合条件的列
    df_cleaned = df[selected_columns]
    
    # 输出筛选后的列名
    print("筛选后列名:", selected_columns)
    
    # 将筛选后的数据保存为新的 CSV 文件
    df_cleaned.to_csv(cleaned_data_path, index=False, encoding='utf-8')
    
    print(f"缺失值比例在 5% 以下的列（含强制保留的 '摘要 (英语)' 列）已成功保存到 {cleaned_data_path}")
    
    # 提取前100行数据
    df_first_100 = df_cleaned.head(100)
    
    # 将前100行数据保存为 .xlsx 文件
    df_first_100.to_excel(excel_output_path, index=False, engine='openpyxl')
    
    print(f"前100行数据已成功保存到 {excel_output_path}")

except Exception as e:
    print("读取或处理数据时出错:", e)

原始列名: ['公开号', '标题', '标题 - DWPI', '优先权号', '优先权号/优先权日 - DWPI', '优先权日', '优先权日 - DWPI', '申请号', '申请日期', '公开日期', '估计的截止日期', '估计截止日期因素 - 放弃权项', '估计截止日期因素 - 估计的最早实际申请日期', '估计截止日期因素 - 估计的期末放弃前专利', '估计截止日期因素 - 期末放弃最早的估计申请日期 ', '估计截止日期因素 - 期末放弃前专利截止日期', '估计截止日期因素 - 35 U.S.C. 专利有效期调整', '估计截止日期因素 - 35 USC 156 有效期 ', '估计截止日期因素 - 公开日期', '估计截止日期因素 - 外观设计专利有效期', '估计截止日期因素 - 授权后专利有效期调整 (PTA)', '估计截止日期因素 - 补充保护证书 (SPC) 有效期', '估计截止日期因素 - 已撤回项文字标识', '估计截止日期终止因素', '预计剩余有效期', '失效/有效', '失效/有效 DWPI 同族专利状态', '失效/有效 Inpadoc 同族专利状态', 'IPC - 现版', 'IPC - 现版 - DWPI', '专利权人/申请人', '当前专利权人 - 美国', '优化的专利权人', '终属母公司', '日本 F Term', '日本 FI 分类号', '项目编号', '标题 (英语)', '摘要 (英语)', '权利要求 (英语)', '说明书 (英语) (30', '000 条记录限制)', '公开年', '公开月', '优先权日 - 最早', 'PCT 申请日期', 'PCT 公开号', 'IPC 大类组', 'IPC 部', 'IPC 大类']
筛选后列名: ['公开号', '标题', '标题 - DWPI', '优先权号', '优先权号/优先权日 - DWPI', '优先权日', '优先权日 - DWPI', '申请号', '申请日期', '公开日期', '失效/有效', '失效/有效 DWPI 同族专利状态', '失效/有效 Inpadoc 同族专利状态', 'IPC - 现版', 'IPC - 现版 - DWPI', '专利权人/申请人', '优化的专利权人', '终属母公司', '项目编号'

发现IPC现版列有多个值，在处理 IPC - 现版 列时，由于每个专利可能对应多个 IPC 分类号（用分隔符如 | 分隔），为了方便后续进行共现网络分析、社区划分以及 TERGM（Temporal Exponential Random Graph Model）建模，建议 保留所有分类号 ，而不是只取其中一个

In [3]:
import pandas as pd

# 数据路径
data_path = "E:/solid-state patent data/csv_cleaned-1_2025-02-06-12-56-40.csv"
cleaned_data_path = "E:/solid-state patent data/csv_cleaned_ipc.csv"

try:
    # 读取数据
    df = pd.read_csv(data_path, encoding='utf-8', low_memory=False)
    
    # 输出原始列名
    print("原始列名:", df.columns.tolist())
    
    # 检查是否存在 'IPC - 现版' 列
    if 'IPC - 现版' not in df.columns:
        raise KeyError("数据中缺少 'IPC - 现版' 列，请检查数据。")
    
    # 清洗 'IPC - 现版' 列：拆分多值字段（以 '|' 分隔）
    df['IPC - 现版'] = df['IPC - 现版'].str.split('|')
    
    # 展平数据：将每个分类号展开为单独的行
    df_ipc = df.explode('IPC - 现版')
    
    # 标准化分类号（可选）：去掉空格并截取前四位
    df_ipc['IPC - 现版'] = df_ipc['IPC - 现版'].str.strip().str[:4]
    
    # 去除空值（如果有）
    df_ipc = df_ipc.dropna(subset=['IPC - 现版'])
    
    # 输出处理后的列名
    print("处理后列名:", df_ipc.columns.tolist())
    
    # 将处理后的数据保存为新的 CSV 文件
    df_ipc.to_csv(cleaned_data_path, index=False, encoding='utf-8')
    
    print(f"处理后的数据已成功保存到 {cleaned_data_path}")

except Exception as e:
    print("读取或处理数据时出错:", e)

原始列名: ['公开号', '标题', '标题 - DWPI', '优先权号', '优先权号/优先权日 - DWPI', '优先权日', '优先权日 - DWPI', '申请号', '申请日期', '公开日期', '失效/有效', '失效/有效 DWPI 同族专利状态', '失效/有效 Inpadoc 同族专利状态', 'IPC - 现版', 'IPC - 现版 - DWPI', '专利权人/申请人', '优化的专利权人', '终属母公司', '项目编号', '标题 (英语)', '000 条记录限制)', '公开年', '公开月', 'PCT 公开号', 'IPC 大类组', 'IPC 部', '摘要 (英语)']
处理后列名: ['公开号', '标题', '标题 - DWPI', '优先权号', '优先权号/优先权日 - DWPI', '优先权日', '优先权日 - DWPI', '申请号', '申请日期', '公开日期', '失效/有效', '失效/有效 DWPI 同族专利状态', '失效/有效 Inpadoc 同族专利状态', 'IPC - 现版', 'IPC - 现版 - DWPI', '专利权人/申请人', '优化的专利权人', '终属母公司', '项目编号', '标题 (英语)', '000 条记录限制)', '公开年', '公开月', 'PCT 公开号', 'IPC 大类组', 'IPC 部', '摘要 (英语)']
处理后的数据已成功保存到 E:/solid-state patent data/csv_cleaned_ipc.csv
