In [1]:
from Bio import SeqIO

In [4]:
record = SeqIO.read( "exercise_files/P17102.gbk", "genbank")

In [6]:
print(record.id)

P17102.1


In [7]:
print(record.description)

RecName: Full=Protein X; AltName: Full=HBx; AltName: Full=Peptide X; AltName: Full=pX


In [8]:
print(record.name)

X_HBVA4


In [9]:
print(record.seq)

MATRLCCQLDPSRDVLCLRPVGAESRGRPLSGPLGTLSSPSPSAVPADHGAHLSLRGLPVCAFSSAGPCALRFTSARCMETTVNAHQILPKVLHKRTLGLPAMSTTDLEAYFKDCVFKDWEELGEEIRLKVFVLGGCRHKLVCAPAPCNFFTSA


In [10]:
recordFASTA = SeqIO.read( "exercise_files/P17102.fasta", "fasta")

In [11]:
print(recordFASTA.description)

sp|P17102|X_HBVA4 Protein X OS=Hepatitis B virus genotype A2 subtype adw2 (isolate Germany/991/1990) GN=X PE=3 SV=1


In [12]:
print(recordFASTA.seq)

MATRLCCQLDPSRDVLCLRPVGAESRGRPLSGPLGTLSSPSPSAVPADHGAHLSLRGLPVCAFSSAGPCALRFTSARCMETTVNAHQILPKVLHKRTLGLPAMSTTDLEAYFKDCVFKDWEELGEEIRLKVFVLGGCRHKLVCAPAPCNFFTSA


In [13]:
import os

In [15]:
records = []
for filename in os.listdir("exercise_files/LHBs"):
    handle = open("exercise_files/LHBs" + "/" + filename)
    record = SeqIO.read( handle, "swiss" )
    records.append ( record )

In [16]:
len(records)

44

In [17]:
SeqIO.write(records, "LHBs_variants.fasta", "fasta")

44

In [18]:
from Bio import AlignIO

In [19]:
alignment = AlignIO.read(open("LHBs_variants.aln"), "clustal")

In [21]:
print("Alignment length %i" % alignment.get_alignment_length())

Alignment length 400


In [22]:
print(alignment[0])

ID: Q67867
Name: <unknown name>
Description: Q67867
Number of features: 0
Seq('MGGWSSKPRQGMGTNLSVPNPLGFFPDHQLDPAFGANSNNPDWDFNPNKDRWPE...VYI', SingleLetterAlphabet())


In [23]:
print(alignment[:,38]) #колонка выравнивания с соответв аминакисл

NNHNNNNNEEEEDENNDNNTNTAAAANNRNNNNRRRNSSSSSSS


In [24]:
from Bio.Align import AlignInfo

In [25]:
summury_align = AlignInfo.SummaryInfo(alignment)

In [None]:
# summary_align объект имеет множество методов, один из которых dumb_consensus() используется для
# расчета простой консенсусной строки:

In [27]:
consensus = summury_align.dumb_consensus()
print(consensus)

MGGXSSXXRXGMGXNLSVPNPLGFFPDHQLDPAFXANSXNPDWDFNPXKDXWPXANXVGXGAFGPGFTPPHGGLLGWSPQAQGXLTTXPAXPPPASTNRQSGRQPTPXSPPLRDXHPQAMQWNSTXFHQXLXDPRVRGLYFPAGGSSSGTVNPXPXXASXISSIXSXTGDPAXNMENITSGXLGPLLVLQAGFFLLTXILTIPQSLDSWWTSLNFLGGXPXCXGQNSQSPTSNHSPTSCPPXCPGYRWMCLRRFIIFLFILLLCLIFLLVLLDYQGMLPVCPLXPGSXTTSTGPCXTCTTXAQGTSMFPSCCCTKPXDGNCTCIPIPSSWAFXKXLWEWASXRFSWLSLLVPFVQWFVGLSPTVWLSVIWMMWYWGPSLYXILSPFXPLLPIFFCLWVYI


# Позиционно-специфическая весовая матрица(Position Specific Score Matrices)

Position specific score matrices (PSSMs) суммирует информацию выравнивания другим способом, чем
консенсус. PSSM содержит для каждой колонки (столбца) выравнивания количество каждой буквы
алфавита(аминокислоты).
Например,
GTATC
AT--C
CTGTC
PSSM следующая:
G A T C
G 1 1 0 1
T 0 0 3 0
A 1 1 0 0
T 0 0 2 0
C 0 0 0 3

In [29]:
my_pssm = summury_align.pos_specific_score_matrix( consensus )

Можно получить любой элемент PSSM как your_pssm[sequence_number][residue_count_name].
Например получить количество’M’ в первом элементе нашего примераPSSM:

In [30]:
print( my_pssm[0]["M"])

27.0


# Матрица замен

Матрицы замен являются важным элементов для биоинформатики. Они содержат числа, отражающие
вероятность или возможность замены двух аминокислот друг на друга. Это важно при сравнении
двух последовательностей. Biopython содержит много вариантов матриц замен, и обеспечивает
возможность создания собственной матрицы на основе множественного выравнивания.

In [31]:
replace_info = summury_align.replacement_dictionary()

In [32]:
print(replace_info[("A", "G")])

876.0


In [33]:
print(replace_info[("A", "K")])

12.0


Мы используем метод replacement dictionary() для получения инфомации для создания Accepted
Replacement Matrix (ARM). Это осуществляется с использованием функции SeqMat()  внутри
модуля SubsMat

In [34]:
from Bio import SubsMat

In [104]:
my_arm = SubsMat.SeqMat(replace_info)

С использованием полученной accepted replacement matrix, можно рассчитать log odds matrix (т.е.
стандартный тип Substitution Matrix)

In [36]:
my_lom = SubsMat.make_log_odds_matrix(my_arm)

In [110]:
# sm.LogOddsMatrix.print_mat(my_lom, f = file, format="%4d",bottomformat="%4s",alphabet=None)