# Molecular Biology (Splice-junction Gene Sequences) Data Set
1. Данные представляют собой набор последовательностей ДНК с именами, которые относятся к трем классам:
    - интрон/экзон граница (IE)
    - экзон/интрон граница (EI)
    - не являющиеся границей (N - Neither)
2. Задача состоит в том, чтобы из опрделенной последовтельности ДНК распознать границы между экзонами (части последовательности ДНК, сохраненные после сращивания/сплайсинга) и интронами (части последовательности ДНК, которые были удалены после сращивания/сплайсинга). Данная задача разбивается на две подзадачи:
    - распознавание экзон/интрон границы (IE), известной как акцептор
    - распознавание интрон/экзон границы (EI), известной как донор
    - распознавание последовательностей, которые не явля.тся ни IE границей, ни EI границей

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import urllib.request as url_req
%matplotlib inline

Устанавливаем прокси, если имеется

In [3]:
proxy_support = url_req.ProxyHandler({"https":"https://proxy-ir.intel.com:911"})
opener = url_req.build_opener(proxy_support)
url_req.install_opener(opener)

Получение данных из репозитория для Машинного обучения Калифорнийского университета (UCI)

In [4]:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/molecular-biology/splice-junction-gene-sequences/splice.data"
data = pd.read_csv(url, sep = ', ', engine='python', header = None)

Добавление названия столбцов для полученных данных

In [5]:
data.columns = ["Class", "Name", "Sequence"]
data

Unnamed: 0,Class,Name,Sequence
0,EI,ATRINS-DONOR-521,CCAGCTGCATCACAGGAGGCCAGCGAGCAGGT...
1,EI,ATRINS-DONOR-905,AGACCCGCCGGGAGGCGGAGGACCTGCAGGGT...
2,EI,BABAPOE-DONOR-30,GAGGTGAAGGACGTCCTTCCCCAGGAGCCGGT...
3,EI,BABAPOE-DONOR-867,GGGCTGCGTTGCTGGTCACATTCCTGGCAGGTA...
4,EI,BABAPOE-DONOR-2817,GCTCAGCCCCCAGGTCACCCAGGAACTGACGTGA...
5,EI,CHPIGECA-DONOR-378,CAGACTGGGTGGACAACAAAACCTTCAGCGGTAA...
6,EI,CHPIGECA-DONOR-903,CCTTTGAGGACAGCACCAAGAAGTGTGCAGGTAC...
7,EI,CHPIGECA-DONOR-1313,CCCTCGTGCGGTCCACGACCAAGACCAGCGGTGAG...
8,EI,GCRHBBA1-DONOR-1260,TGGCGACTACGGCGCGGAGGCCCTGGAGAGGTGAG...
9,EI,GCRHBBA1-DONOR-1590,AAGCTGACAGTGGACCCGGTCAACTTCAAGGTGAG...


Обработка сырых данных, чтобы сделать их пригодными для обработки:
1. Создаем новый список названий стобцов:
    - Class - классы последовательностей (взято без модификаций из полученных данных)
    - Name - название последовательностей (взято без модицикаций из полученных данных)
    - [0..59] столбцы - соответствующее значениям симовлам из последовтельности ДНК, отображения в виде чисел
        * A - 0
        * G - 1
        * T - 2
        * C - 3
        * D - 4
        * N - 5
        * S - 6
        * R - 7
2. Модифицируем серию из столбца 'Sequence' сырых данных в набор серий из столбцов [0..59]
3. Формируем таблицу из стобцов 'Class', 'Name' сырых данных и, полученных на 2 шаге, столбцов [0..59]

In [6]:
dict_seq2num = {} # Словарь для ассоциации символа последовательности с числовым значением
# Ассоциируем каждому символу из последовательности [A, G, T, C, D, N, S, R] числовое значение из диапазона [0..7]
dict_seq2num["A"] = 0
dict_seq2num["G"] = 1
dict_seq2num["T"] = 2
dict_seq2num["C"] = 3
dict_seq2num["D"] = 4
dict_seq2num["N"] = 5
dict_seq2num["S"] = 6
dict_seq2num["R"] = 7
# и обратное преобразовние
dict_num2seq = {}
dict_num2seq[0] = 'A'
dict_num2seq[1] = 'G'
dict_num2seq[2] = 'T'
dict_num2seq[3] = 'C'
dict_num2seq[4] = 'D'
dict_num2seq[5] = 'N'
dict_num2seq[6] = 'S'
dict_num2seq[7] = 'R'

dict_class2num = {} # Словарь для ассоциации класса с числовым значением
# Ассоциируем каждому классу [N, EI, IE] числовое значение из множества [0, 1, 2]
dict_class2num['N'] = 0
dict_class2num['EI'] = 1
dict_class2num['IE'] = 2
# и обратное преобразование
dict_num2class = {}
dict_num2class['N'] = 0
dict_num2class['EI'] = 1
dict_num2class['IE'] = 2

In [7]:
list_of_columns = [] # Создадим пустой список
# Данный список - это названия столбцов будущего Pandas' DataFrame
list_of_columns.extend(['Class', 'Name']) 
list_of_columns.extend(list(range(0,60)))

pd_series_list = [list(dict_seq2num[item.split()[0][i]] for item in data['Sequence'].tolist()) for i in range(0, 60)]

molecular_data = pd.DataFrame(columns=list_of_columns)
molecular_data['Class'] = data['Class']
molecular_data['Name'] = data['Name']
for i in range(0, 60):
    molecular_data[i] = pd_series_list[i]
molecular_data

Unnamed: 0,Class,Name,0,1,2,3,4,5,6,7,...,50,51,52,53,54,55,56,57,58,59
0,EI,ATRINS-DONOR-521,3,3,0,1,3,2,1,3,...,0,1,3,3,0,1,2,3,2,1
1,EI,ATRINS-DONOR-905,0,1,0,3,3,3,1,3,...,1,2,1,3,3,3,3,3,1,3
2,EI,BABAPOE-DONOR-30,1,0,1,1,2,1,0,0,...,3,0,3,1,1,1,1,0,2,1
3,EI,BABAPOE-DONOR-867,1,1,1,3,2,1,3,1,...,1,1,2,2,2,2,3,3,3,3
4,EI,BABAPOE-DONOR-2817,1,3,2,3,0,1,3,3,...,3,3,2,2,1,0,3,3,3,2
5,EI,CHPIGECA-DONOR-378,3,0,1,0,3,2,1,1,...,1,0,1,0,3,3,0,3,0,1
6,EI,CHPIGECA-DONOR-903,3,3,2,2,2,1,0,1,...,1,2,1,1,3,3,1,3,3,0
7,EI,CHPIGECA-DONOR-1313,3,3,3,2,3,1,2,1,...,1,1,2,3,1,2,1,1,1,1
8,EI,GCRHBBA1-DONOR-1260,2,1,1,3,1,0,3,2,...,1,3,2,3,3,0,1,2,3,3
9,EI,GCRHBBA1-DONOR-1590,0,0,1,3,2,1,0,3,...,1,0,1,1,1,2,1,0,1,0


In [8]:
molecular_data.describe()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,50,51,52,53,54,55,56,57,58,59
count,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,...,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0,3190.0
mean,1.521944,1.532288,1.564577,1.553605,1.543574,1.580564,1.533542,1.550784,1.580564,1.532288,...,1.558621,1.461129,1.528213,1.52884,1.490596,1.525705,1.498119,1.550784,1.531034,1.496238
std,1.11406,1.130297,1.114374,1.128653,1.137111,1.117269,1.130538,1.137363,1.132877,1.112118,...,1.113015,1.122293,1.1111,1.09631,1.131551,1.119035,1.102392,1.117336,1.13338,1.09468
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,...,1.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
50%,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,...,1.0,1.0,1.0,1.0,1.0,2.0,1.0,2.0,2.0,1.0
75%,3.0,3.0,3.0,3.0,3.0,3.0,3.0,3.0,3.0,3.0,...,3.0,2.0,3.0,3.0,3.0,3.0,2.0,3.0,3.0,2.0
max,4.0,4.0,3.0,3.0,3.0,3.0,3.0,3.0,3.0,3.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0,5.0


In [None]:
#molecular_data['Class'].value_counts()
class_freq = { dict_num2seq[0] : 0, dict_num2seq[1] : 0, dict_num2seq[2] : 0,
          dict_num2seq[3] : 0, dict_num2seq[4] : 0, dict_num2seq[5] : 0,
          dict_num2seq[6] : 0, dict_num2seq[7] : 0 }
freq = {'EI' : class_freq.copy(), 'IE' : class_freq.copy(), 'N' : class_freq.copy()}
freq

#np.zeros((8, 4)), 
molecular_freq_df = pd.DataFrame(columns=['Character', 'N', 'EI', 'IE'])
molecular_freq_df['Character'] = ['A', 'G', 'T', 'C', 'D', 'N', 'S', 'R']
molecular_freq_df['N'].fillna(0, inplace=True)
molecular_freq_df['EI'].fillna(0, inplace=True)
molecular_freq_df['IE'].fillna(0, inplace=True)

for _, row in molecular_data.iterrows():
    for i in range(0, 60):
        molecular_freq_df[row['Class'], row[i]] = molecular_freq_df[row['Class'], row[i]] + 1

molecular_freq_df
#for _, row in molecular_data.iterrows():
#    for i in range(0, 60):
#        freq[row['Class']][dict_num2seq[row[i]]] = freq[row['Class']][dict_num2seq[row[i]]] + 1

count    3190.000000
mean        1.521944
std         1.114060
min         0.000000
25%         1.000000
50%         1.000000
75%         3.000000
max         4.000000
Name: 0, dtype: float64