In [6]:
# 定义转换函数
def convert_genotype(geno, ref, alt):
    """
    将基因型字符串（如 "0/1"）转换为碱基表示
    :param geno: 基因型字符串，如 "0/1"
    :param ref: 参考碱基（REF列）
    :param alt: 变异碱基（ALT列，可能包含多个用逗号分隔的值）
    :return: 转换后的碱基型，如 "A/T"
    """
    alt_list = alt.split(',') if alt != '.' else []
    alleles = geno.split('/')
    converted = []
    for allele in alleles:
        if allele == '.':
            converted.append('.')
        else:
            a = int(allele)
            if a == 0:
                converted.append(ref)
            else:
                if a-1 < len(alt_list):
                    converted.append(alt_list[a-1])
                else:
                    converted.append('?')  # 处理无效等位
    return '/'.join(converted)

# 定义主函数
def process_file(input_file, output_file):
    """
    处理输入文件并生成输出文件
    :param input_file: 输入文件名
    :param output_file: 输出文件名
    """
    with open(input_file, 'r') as f_in, open(output_file, 'w') as f_out:
        # 处理表头
        header = f_in.readline().strip().split('\t')
        new_header = []
        for col in header:
            new_header.append(col)
            if col in ['KM1502', 'KM1706', 'PY9', 'X2016']:
                new_header.append(f"{col}_GT")
        f_out.write('\t'.join(new_header) + '\n')

        # 处理每一行
        for line in f_in:
            row = line.strip().split('\t')
            chrom, pos, ref, alt = row[0], row[1], row[2], row[3]
            new_row = row[:4]  # 保留前4列

            # 处理每个样本的基因型
            for i in range(4, len(row)):
                gt = row[i]
                converted = convert_genotype(gt, ref, alt)
                new_row.extend([gt, converted])

            f_out.write('\t'.join(new_row) + '\n')

# 在 Notebook 中调用主函数
if __name__ == '__main__':
    input_file = 'panel.snp.gt.txt'  # 输入文件名
    output_file = 'output.txt'  # 输出文件名
    process_file(input_file, output_file)
    print(f"处理完成！结果已保存到 {output_file}")


处理完成！结果已保存到 output.txt
