# Práctica de Biopython

A continuación se integrarán en equipos de 4 personas para realizar la siguiente práctica.

El coronavirus SARS-CoV-2 tiene una proteína llamada spike (S), que es una glicoproteína tipo I que se encuentra en la superficie del virus y puede hacer contacto con la célula hospedera. SARS-CoV-2 es muy parecido al virus SARS-CoV, ambos coronavirus están relacionados y pertenecen al subgénero sarbecvirus de los Coronaviridae. 

Por otro lado, el gen ACE2 (Angiotensin-converting enzyme 2) es un gen del humano que ha llamado la atención recientemente porque promueve la entrada de SARS-CoV-2 en las células. Realizando una simulación estructural es posible identificar el contacto de ACE2 con la proteína S. De acuerdo con la literatura (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7102515/) los aminoácidos que hacen contacto con SARS-CoV son: Y442, L472, N479, D480, T487, Y491. Y los que hacen contacto con SARS-CoV-2 son: L455, F486, Q493, S494, N501 and Y505.


El ejercicio consiste en:

1. Obtener la secuencia de la proteína S del coronavirus SARS-CoV-2
2. Obtener la proteína S del coronavirus SARS-CoV (NP_828851.1)
3. Realizar el alineamiento de ambas proteínas
4. Seleccionar únicamente la región del alineamiento que muestra estos residuos
5. ¿Qué más se les ocurre que puedan hacer usando Biopython? 





In [7]:
from Bio.Align.Applications import ClustalOmegaCommandline

In [66]:
in_file = 'samples/SARS-CoV_CoV2.fasta'
out_file = 'output/SARS-aligned.fasta'

samples/SARS-CoV_CoV2.fasta


In [10]:
clustalomega_cline = ClustalOmegaCommandline(infile=in_file, outfile=out_file, verbose=True, auto=True)
print(clustalomega_cline)

clustalo -i samples/SARS-CoV_CoV2.fasta -o output/SARS-aligned.fasta --auto -v


In [11]:
!./clustalo -i samples/SARS-CoV_CoV2.fasta -o output/SARS-aligned.fasta --auto -v

Using 8 threads
Read 2 sequences (type: Protein) from samples/SARS-CoV_CoV2.fasta
not more sequences (2) than cluster-size (100), turn off mBed
Setting options automatically based on input sequence characteristics (might overwrite some of your options).
Auto settings: Enabling mBed.
Auto settings: Setting iteration to 1.
Progressive alignment progress done. CPU time: 0.17u 0.05s 00:00:00.22 Elapsed: 00:00:00
Iteration step 1 out of 1
Computing new guide tree (iteration step 0)
Computing HMM from alignment
Progressive alignment progress done. CPU time: 0.51u 0.11s 00:00:00.62 Elapsed: 00:00:01
Alignment written to output/SARS-aligned.fasta


In [29]:
from Bio import AlignIO

align = AlignIO.read(r'output/SARS-aligned.fasta', 'fasta')
print(align)

SingleLetterAlphabet() alignment with 2 rows and 1277 columns
MFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPD...HYT NP_828851.1
MFVFLVLLPLVSSQCVNLTTR--TQLPPAYT--NSFTRGVYYPD...HYT YP_009724390.1


In [30]:
from Bio.Align.AlignInfo import SummaryInfo
from Bio.Alphabet import ProteinAlphabet

align._alphabet = ProteinAlphabet()
summary = SummaryInfo(align)
print(summary.information_content())

5167.917111937568


In [31]:
summary.dumb_consensus(consensus_alpha=ProteinAlphabet())

Seq('MFXFLXXLXLXSXXXXXXXTXFDXXXXPXYTQHXSXXRGVYYPDXXFRSXXLXX...HYT', ProteinAlphabet())

In [50]:
print(align[:, 440:510]) # Toma la primera secuencia

ProteinAlphabet() alignment with 2 rows and 70 columns
NTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPC...GYQ NP_828851.1
NSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPC...GYQ YP_009724390.1


In [53]:
print(align[1:, 440:510])

ProteinAlphabet() alignment with 1 rows and 70 columns
NSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPC...GYQ YP_009724390.1


In [69]:
with open('samples/SARS-CoV.fasta') as fp:
    file1 = fp.read()
with open('samples/SARS-CoV2.fasta') as fp:
    file2 = fp.read()

In [70]:
file1 += file2

with open('samples/SARS-CoV-CoV2.fasta', 'w') as fp:
    fp.write(file1)

'>NP_828851.1 E2 glycoprotein precursor [Severe acute respiratory syndrome-related coronavirus]\nMFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPDEIFRSDTLYLTQDLFLPFYSNVTGFHTINHTFGNPV\nIPFKDGIYFAATEKSNVVRGWVFGSTMNNKSQSVIIINNSTNVVIRACNFELCDNPFFAVSKPMGTQTHTMIFDNAFNCT\nFEYISDAFSLDVSEKSGNFKHLREFVFKNKDGFLYVYKGYQPIDVVRDLPSGFNTLKPIFKLPLGINITNFRAILTAFSP\nAQDIWGTSAAAYFVGYLKPTTFMLKYDENGTITDAVDCSQNPLAELKCSVKSFEIDKGIYQTSNFRVVPSGDVVRFPNIT\nNLCPFGEVFNATKFPSVYAWERKKISNCVADYSVLYNSTFFSTFKCYGVSATKLNDLCFSNVYADSFVVKGDDVRQIAPG\nQTGVIADYNYKLPDDFMGCVLAWNTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTPPALNCYWPLND\nYGFYTTTGIGYQPYRVVVLSFELLNAPATVCGPKLSTDLIKNQCVNFNFNGLTGTGVLTPSSKRFQPFQQFGRDVSDFTD\nSVRDPKTSEILDISPCAFGGVSVITPGTNASSEVAVLYQDVNCTDVSTAIHADQLTPAWRIYSTGNNVFQTQAGCLIGAE\nHVDTSYECDIPIGAGICASYHTVSLLRSTSQKSIVAYTMSLGADSSIAYSNNTIAIPTNFSISITTEVMPVSMAKTSVDC\nNMYICGDSTECANLLLQYGSFCTQLNRALSGIAAEQDRNTREVFAQVKQMYKTPTLKYFGGFNFSQILPDPLKPTKRSFI\nEDLLFNKVTLADAGFMKQYGECLGDINARDLICAQKFNGLTVLPPLLTDDMIAAYTAALVSGTATAGWTFGAGAALQIPF\nA

In [67]:
clustalomega_cline = ClustalOmegaCommandline(infile=file1, outfile=out_file, verbose=True, auto=True)
print(clustalomega_cline)

clustalo -i ">NP_828851.1 E2 glycoprotein precursor [Severe acute respiratory syndrome-related coronavirus]
MFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPDEIFRSDTLYLTQDLFLPFYSNVTGFHTINHTFGNPV
IPFKDGIYFAATEKSNVVRGWVFGSTMNNKSQSVIIINNSTNVVIRACNFELCDNPFFAVSKPMGTQTHTMIFDNAFNCT
FEYISDAFSLDVSEKSGNFKHLREFVFKNKDGFLYVYKGYQPIDVVRDLPSGFNTLKPIFKLPLGINITNFRAILTAFSP
AQDIWGTSAAAYFVGYLKPTTFMLKYDENGTITDAVDCSQNPLAELKCSVKSFEIDKGIYQTSNFRVVPSGDVVRFPNIT
NLCPFGEVFNATKFPSVYAWERKKISNCVADYSVLYNSTFFSTFKCYGVSATKLNDLCFSNVYADSFVVKGDDVRQIAPG
QTGVIADYNYKLPDDFMGCVLAWNTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTPPALNCYWPLND
YGFYTTTGIGYQPYRVVVLSFELLNAPATVCGPKLSTDLIKNQCVNFNFNGLTGTGVLTPSSKRFQPFQQFGRDVSDFTD
SVRDPKTSEILDISPCAFGGVSVITPGTNASSEVAVLYQDVNCTDVSTAIHADQLTPAWRIYSTGNNVFQTQAGCLIGAE
HVDTSYECDIPIGAGICASYHTVSLLRSTSQKSIVAYTMSLGADSSIAYSNNTIAIPTNFSISITTEVMPVSMAKTSVDC
NMYICGDSTECANLLLQYGSFCTQLNRALSGIAAEQDRNTREVFAQVKQMYKTPTLKYFGGFNFSQILPDPLKPTKRSFI
EDLLFNKVTLADAGFMKQYGECLGDINARDLICAQKFNGLTVLPPLLTDDMIAAYTAALVSGTATAGWTFGAGAALQIPF
A