In [1]:
### pandas修改列名顺序

import pandas as pd

# 创建示例 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})


######  m1  #############
# 调整列顺序：C → A → B
df = df[['C', 'A', 'B']]

######  m2  #############
# 使用 reindex 调整顺序
new_order = ['B', 'C', 'A']
df = df.reindex(columns=new_order)

######  m2  #############
# 调整列索引顺序：原索引 [0,1,2] → 新顺序 [2,0,1]（即 C→A→B）
df = df.iloc[:, [2, 0, 1]]


In [None]:
### pandas 剔除某列中的NA值的所有行
import pandas as pd
import numpy as np

# 创建示例 DataFrame
data = {'A': [1, 2, np.nan, 4], 
        'B': [5, np.nan, 7, 8], 
        'C': [9, 10, 11, np.nan]}
df = pd.DataFrame(data)

# 删除列'A'中包含缺失值的行
df_cleaned = df.dropna(subset=['A'])

print("处理前：\n", df)
print("\n处理后：\n", df_cleaned)

In [None]:
### aplly 和 lambda 的组合用法
child_pheno.loc[:, 'healthy'] = child_pheno.apply(
    lambda x: 'healthy' if x['bd'] == 1 else 'unhealthy', axis=1
)
child_pheno.loc[:, 'HD'] = child_pheno.apply(
    lambda x: 'HD' if "先心" in x['bd_detail'] else ('healthy' if x['bd'] == 1 else '其他默认值'),
    axis=1
)

def classify_hd(row):
    if "先心" in row['bd_detail']:
        return 'HD'
    elif row['bd'] == 1:
        return 'healthy'
    else:
        return '其他默认值'

child_pheno.loc[:, 'HD'] = child_pheno.apply(classify_hd, axis=1)

import numpy as np
child_pheno.loc[:, 'HD'] = np.where(
    child_pheno['bd_detail'].str.contains("先心", na=False),
    'HD',
    np.where(child_pheno['bd'] == 1, 'healthy', '其他默认值')
)

In [None]:
### 理解groupby
# 统计每个 Sample_name 样本MLC_pos_score的和
result = grandmother_mlc.groupby('Sample_name')['MLC_pos_score'].sum()


In [None]:
### 正则表达式的替换
pattern = re.compile("|".join(map(re.escape, replace_dict.keys())))
new_text = pattern.sub(lambda m: replace_dict[m.group()], lines)
# re.escape​：对字典键（待替换词）中的特殊字符（如 *, $等）进行转义，确保它们作为普通字符匹配
# ​|​：正则中的“或”逻辑，将字典所有键组合成一个模式，匹配任意一个键。例如，若字典为 {"cat": "dog", "red": "blue"}，则生成的正则模式为 cat|red
# ​re.compile​：预编译正则表达式，提升多次匹配的性能


In [None]:
### pandas 多列合并
pd.merge(df1, df2, left_on=['col1', 'col2'], right_on=['colA', 'colB'])

In [3]:
# ### pandas统计数据框，根据Sample_name列中的元素统计strand列下var列中各元素所占的百分比
import pandas as pd

# 假设df是您的数据框
# 以下是创建示例数据框的代码(基于您提供的表格数据)
data = {
    'Family_Index': [1, 1, 1, 1, 1],
    'Sample_name': ['15102852TLL4A', '15102852UCL2A', '15031006M26BFF2A', 
                   '15031006M26BFF2A', '15031006M26BFF2A'],
    'Tissue': ['Placenta', 'Umbilical cord', 'Maternal blood', 
              'Maternal blood', 'Maternal blood'],
    'CHROM': ['chrM', 'chrM', 'chrM', 'chrM', 'chrM'],
    'POS': [11002, 11002, 11002, 9545, 8618],
    'strand': ['H', 'H', 'H', 'H', 'L'],
    'var': ['T>C', 'T>C', 'T>C', 'T>C', 'T>C']
}

df = pd.DataFrame(data)

# 统计每个样本中不同变异类型的百分比
result = (df.groupby(['Sample_name', 'var', 'strand'])
          .size()
          .groupby(level=0)
          .apply(lambda x: 100 * x / x.sum())
          .reset_index(name='Percentage'))

# 格式化百分比显示
result['Percentage'] = result['Percentage'].round(2)

print(result)

In [None]:
### python中list去掉第一个和最后一个元素
original_list = [1, 2, 3, 4, 5]
new_list = original_list[1:-1]  # 输出: [2, 3, 4]

lst = [1, 2, 3, 4, 5]
lst.pop(0)  # 删除第一个元素
lst.pop()   # 删除最后一个元素（默认-1）

lst = [1, 2, 3, 4, 5]
del lst[0], lst[-1]  # 删除首尾元素
print(lst)  # 输出: [2, 3, 4]

In [None]:

hd_res = hds.loc[hds['V1'].str.startswith('PC')]
hd_res = hds.loc[hds['V1'].str.contains('^PC', regex=True, case=False)]
### hd_res = hds.loc[hds['V1'].str.startswith('PC')]  这个python代码我想要删选多个字符开始的结果，
# 筛选以'PC'或'AB'开头的行
hd_res = hds.loc[hds['V1'].str.startswith(('PC', 'AB'))]

import re
# 使用正则表达式匹配以'PC'或'AB'开头的行
pattern = r'^(PC|AB)'
hd_res = hds.loc[hds['V1'].str.match(pattern)]


In [None]:
### pandas取指定列，在alist列表中如果数据框中存在alist中的列则取所有的，不存在则忽略

import pandas as pd

# 假设df为数据框，alist为预定义的列名列表
existing_cols = [col for col in alist if col in df.columns]
df_filtered = df[existing_cols]  # 仅选择存在的列

df_filtered = df.filter(items=alist)  # 自动过滤不存在的列

df_filtered = df.loc[:, df.columns.intersection(alist)]  # 交集筛选列

In [None]:
### pandas中数据框其余所有列与A列进行相关性分析
corr_matrix = df.corr()  # 计算所有列的相关系数矩阵
a_corr = corr_matrix['A']  # 提取其他列与'A'列的相关性