# 内容：将蛋白质序列按特征进行转换

### 基本转换思想：构建一个特征字典，将相应的氨基酸映射到数据上同时构建这个内容，但同时需要注意，有个别蛋白质序列存在一些我们不考虑的氨基酸的氨基酸

In [1]:
import os
import csv

In [2]:
# 定义蛋白质特征
# 大小
size = {'C': 1, 'S': 1, 'A': 1, 'G': 1, 
        'N': 2, 'T': 2, 'D': 2, 'P': 2, 
        'M': 3, 'L': 3, 'I': 3, 'H': 3, 'Q': 3, 'E': 3, 'V': 3, 
        'W': 4, 'R': 4, 'Y': 4, 'F': 4, 'K': 4}

# 极性，以及极性中的酸碱度
polarity = {'C': 2, 'S': 2, 'A': 1, 'G': 1, 
        'N': 2, 'T': 2, 'D': 4, 'P': 1, 
        'M': 1, 'L': 1, 'I': 1, 'H': 3, 'Q': 2, 'E': 4, 'V': 1, 
        'W': 1, 'R': 3, 'Y': 2, 'F': 1, 'K': 3}

# 结合基团不同的氨基酸分类：脂肪族4，芳香族1，杂环族2，杂环亚3
binding_group = {'C': 4, 'S': 4, 'A': 4, 'G': 4, 
        'N': 4, 'T': 4, 'D': 4, 'P': 3, 
        'M': 4, 'L': 4, 'I': 4, 'H': 2, 'Q': 4, 'E': 4, 'V': 4, 
        'W': 2, 'R': 4, 'Y': 1, 'F': 1, 'K': 4}

# merge ，以上特征组合的特征
merge = {'C': 'j', 'S': 'j', 'A': 'h', 'G': 'h', 'N': 'a',
         'T': 'a', 'D': 'f', 'P': 'b', 'M': 'g', 'L': 'g', 
         'I': 'g', 'H': 'm', 'Q': 'k', 'E': 'l', 'V': 'g', 
         'W': 'e', 'R': 'c', 'Y': 'i', 'F': 'd', 'K': 'c'}

In [3]:
# 将正类和负类数据抽取成list
def extract_data(path):
    lines_list =[]
    with open(path, 'r') as f:
        for line in f.readlines():
            line = line.replace('\n','')
            lines_list.append(line)
    return lines_list

In [4]:
def get_replaced_data(data, chara):
    new_data = []
    for line in data:
        new_line = ''
        for i in line:
            if i in chara.keys():
                new_line += str(chara[i])
            else:
                new_line += '0'
        new_data.append([new_line])
    return new_data

In [5]:
# 保存数据
def save_data(data, path):
    with open(path, 'w', newline='') as f:
        writer = csv.writer(f)
        writer.writerows(data)
    print('Finish writer!!!')

In [6]:
# 要生成的特征
#char = [size, polarity, binding_group]
char = [merge]

# 保存的文件夹
#path_name = ['size', 'polarity', 'binding_group']
path_name = ['merge']

path_dir = r'Thermophilic'

In [7]:
# path
path_data_dir = os.path.dirname(os.path.dirname(os.getcwd()))


path_new_positive = path_data_dir + '\\new_data\\'+ path_dir + r"\data\positive.csv"
path_new_negative = path_data_dir + '\\new_data\\'+ path_dir + r'\data\negitive.csv'


path_positive1 = path_data_dir + '\\new_data\\' + path_dir + '\\'
path_negative1 = path_data_dir + '\\new_data\\' + path_dir + '\\'

path_positive2 = r'\positive.csv'
path_negative2 = r'\negitive.csv'

In [8]:
# 抽取正负样本数据
positive_data = extract_data(path_new_positive)
negative_data = extract_data(path_new_negative)

print('正样本数据有：',len(positive_data))
print('负样本数据有：',len(negative_data))

# 转换数据

for i,cha in enumerate(char):
    print(i)
    print(cha)
    positive_data = get_replaced_data(positive_data, cha)
    negative_data = get_replaced_data(negative_data, cha)
    
    path_positive = path_positive1 + path_name[i] + path_positive2
    path_negative = path_negative1 + path_name[i] + path_negative2
    
    # 写入数据
    save_data(positive_data, path_positive)
    save_data(negative_data, path_negative)

正样本数据有： 915
负样本数据有： 793
0
{'C': 'j', 'S': 'j', 'A': 'h', 'G': 'h', 'N': 'a', 'T': 'a', 'D': 'f', 'P': 'b', 'M': 'g', 'L': 'g', 'I': 'g', 'H': 'm', 'Q': 'k', 'E': 'l', 'V': 'g', 'W': 'e', 'R': 'c', 'Y': 'i', 'F': 'd', 'K': 'c'}
Finish writer!!!
Finish writer!!!
