In [None]:
from IPython.core.display import display, HTML, Javascript, clear_output, Image
display(HTML("<style>.container { width:90% !important; } </style>"))

[<img align="left" src="http://biopython.org/DIST/docs/tutorial/images/biopython_logo.svg" width="500" height="500">](https://biopython.org/)

### <font color=#333333>Biopython es un conjunto de herramientas para análisis biológico escritas en python por un equipo internacional de desarrolladores.</font>
### <font color=#333333>Esta aplicación refleja un esfuerzo colaborativo para desarrollar bibliotecas de python y aplicaciones para dirigir las necesidades actuales y a futuro de trabajos bioinformáticos.</font>
</br>

<b style="font-size:2vw"><font color = red>1. Trabajando sobre secuencias</font></b>

#### importamos la función `Seq` desde el módulo Bio.Seq
La función `Seq` convierte en objeto Seq, el cual es compatible con más funciones implementadas en Biopython

In [None]:
from Bio.Seq import Seq

#### guardamos una secuencia de nucleótidos en la variable `mi_sec`

In [None]:
mi_sec = Seq("TTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGA")

In [None]:
print(mi_sec)

#### longitud de la secuencia

In [None]:
len(mi_sec)

#### iteración sobre las bases de la secuencia

In [None]:
for indice, base in enumerate(mi_sec):
    print(indice, base)

#### determinar el % de GC

In [None]:
float(mi_sec.count("G") + mi_sec.count("C")) / len(mi_sec) * 100

####  importamos la función `GC` para determinar % de GC

In [None]:
from Bio.SeqUtils import GC

In [None]:
GC(mi_sec)

#### cortar una secuencia
[Revizar como es el indizado en python.](https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/indizado2_python.jpg)

In [None]:
# !cuidado con los índice que maneja python! 
# en realidad está obteniendo desde la 7 a la 14
print(mi_sec[6:14])

In [None]:
# en realidad está obteniendo desde la 25 a la 34
print(mi_sec[24:34]) 

In [None]:
# empieza de la posición 0, y muestra las bases que se encuentran cada 2 posiciones
print(mi_sec[0::2])

#### convierte la secuencia en una cadena de caracteres

In [None]:
# la función str convierte a la secuencia en un objeto de tipo "str" (string)
str(mi_sec)

#### convierte el objeto en secuencia fasta

In [None]:
# guarda la secuencia en la variable sec_fasta
sec_fasta = '>nombre de secuencia\n' + str(mi_sec)

In [None]:
# imprimir la secuencia
print(sec_fasta)

#### concatena o agrega secuencias

In [None]:
# crea una lista con objetos "Seq" (es decir, fragmentos de secuencias)
list_secs = [Seq("tttgtttttc"), Seq("ttgttttattgcca"), Seq("CTAGTCTCTAGTCAG"), Seq("TGTGTTAAT")]

# crea una variable vacía donde se guardará cada fragmento
concatenada = Seq("")

# itera la lista de secuencias para unir todos los fragmentos y generar una sola secuencia final
for s in list_secs:
    concatenada += s

In [None]:
print(concatenada)

####  funciones `.upper()` y `.lower()` para transformar minúsculas y mayúsculas

In [None]:
# transforma en mayúsculas
concatenada.upper()

In [None]:
# transforma en minúsculas
concatenada.lower()

#### las funciones `.upper()` y `.lower()` son útiles para buscar coincidencias que no distinguen entre minúsculas y mayúsculas

In [None]:
# no hay coincidencia porque tiene minúsculas y mayúsculas (ctagTCTC)
"TGCCACTAGTCT" in concatenada

In [None]:
# ahora que todas son mayúsculas (CTAGTCTC) si hay coincidencia
"TGCCACTAGTCT" in concatenada.upper()

#### Obtener el reverso complementario, funciones `.complement()` y `.reverse_complement()`

In [None]:
print(mi_sec)

In [None]:
# imprime la cadena complementaria
print(mi_sec.complement())

In [None]:
# imprime la cadena reversa complementaria
print(mi_sec.reverse_complement())

<hr style="height:5px;border-width:0;color:blue;background-color:blue">

<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/exercise_blue.png" width="80" height="80">

<font color=#0000ff> <b>Ejercicio:</b> *determina la cadena reversa complementaria de la siguiente secuencia usando funciones de Biopython.*  </font><br>
<font> `ACTCAATTACCCCCTGCATACACTAATTCTTTCACACGTGGTGTT` </font>


In [None]:
print('Respuesta:', )

<hr style="height:5px;border-width:0;color:blue;background-color:blue">

* ### Transcripción
<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/transcripcion2.png" width="600" height="600">

 > #### funciones de biopython: `.transcribe()` y `.back_transcribe()`

In [None]:
# cadena 
print("5'-", mi_sec, "-3'")
print('    '+'|' * len(mi_sec))
print("3'-", mi_sec.complement(), "-5'")

In [None]:
mensajero = mi_sec.transcribe()

In [None]:
# Conversión de la cadena codificante en ARNm, cambio de T por U
print(mensajero)

In [None]:
# conversión del ARNm a cadena codificante 
print(mensajero.back_transcribe())

* ### Traducción
<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/traduccion.png" width="600" height="600">

> #### funciones `.translate()` (biopython usa el código genético estándar)

In [None]:
print(mensajero)

In [None]:
# traducción del ARNm
proteina = mensajero.translate()

In [None]:
# ahora se muestran los residuos de aminoácidos de la proteína
print(proteina)

In [None]:
# otra forma de hacer la traducción es usando cadena codificante
print(mi_sec.translate())

In [None]:
# longitud final de la secuencia traducida
print(len(mi_sec.translate()))

**Existen varios códigos genéticos disponibles, por lo tanto, para hacer la traducción es necesario conocerlos.**  
https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi

In [None]:
# de acuerdo al código mitocondrial de vertebrados la R ("AGG") del código estándar corresponde a un codón de paro (*)
print('https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi#SG2', '\n')
print(mi_sec.translate(table="Vertebrate Mitochondrial"))

In [None]:
# ejemplo con una secuencia de bacteria
gen_bacteria = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCA"
                   "GCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGAT"
                   "AATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACAT"
                   "TATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCAT"
                   "AAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA")

In [None]:
# se elige el código genético para bacterias
# en bacterias GTG puede ser un codón de inicio, mientras que normalmente codifica para valina

print(gen_bacteria.translate(table="Bacterial"))

In [None]:
# la función `to_stop` remueve el codón de paro (*)
print(gen_bacteria.translate(table="Bacterial", to_stop=True))

In [None]:
# en este caso el codón de inicio (GTG = V) se traduce como metionina
gen_bacteria.translate(table="Bacterial", cds=True)

In [None]:
# muestra las tablas de código genético seleccionadas

# from Bio.Data import CodonTable

# tabla_estandar = CodonTable.unambiguous_dna_by_name["Standard"] # CodonTable.unambiguous_dna_by_id[1]
# print(tabla_estandar)

# tabla_mitoc = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"] # CodonTable.unambiguous_dna_by_id[2]
# print(tabla_mitoc)

#### secuencias mutables

In [None]:
# la función `MutableSeq` permite hacer modificaciones puntuales en la secuencia
from Bio.Seq import MutableSeq

In [None]:
# convierte la secuencia en un objeto mutable, es decir, se pueden remplazar nucleótidos
sec_mutable = MutableSeq('TTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGA')

In [None]:
print(sec_mutable)

In [None]:
# sustituye cualquier nucleótido que se encuentre en la posición 5 por C
sec_mutable[5] = "C"
print(sec_mutable)

In [None]:
# remueve de una en una T, empezando por la primera que encuentre en la secuencia
sec_mutable.remove("T")
print(sec_mutable)

#### usando secuencias como cadenas de caracteres

In [None]:
# estas funciones no dependen del objeto `Seq`, por lo tanto pueden trabajar sobre cadenas de caracteres
from Bio.Seq import reverse_complement, transcribe, back_transcribe, translate

In [None]:
# trabaja como la función `.reverse_complement()`
reverse_complement('TTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGA')

In [None]:
# trabaja como la función `.transcribe()`
transcribe('TTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGA')

In [None]:
# trabaja como la función `.back_transcribe()`
back_transcribe('TTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGA')

In [None]:
# trabaja como la función `.translate()`
translate('TTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAATCTTACAACCAGA')

<hr style="height:5px;border-width:0;color:blue;background-color:blue">

<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/exercise_blue.png" width="80" height="80">

<font color=#0000ff> <b>Ejercicio:</b> *identifica la proteína a partir de la secuencia y determina su longitud, ten en cuenta que la __A__ del __ATG__ se encuentra en la posición __136__.* </font><br> 

In [None]:
secuencia = Seq('GTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGC'
                           'GTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGA'
                           'GGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTA'
                           'CTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACG'
                           'ATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCC'
                           'CGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCT'
                           'TCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAG'
                           'CCAAGTCTGTGACTTGCACGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCC'
                           'TGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAG'
                           'TCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGG'
                           'CCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTT'
                           'TCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAAC'
                           'TACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAG'
                           'ACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCG'
                           'GCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAG'
                           'CGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCA'
                           'CCCTTCAGATCCGTGGGCGTGAGCGCTTCGAGATGTTCCGAGAGCTGAATGAGGCCTTGGAACTCAAGGA'
                           'TGCCCAGGCTGGGAAGGAGCCAGGGGGGAGCAGGGCTCACTCCAGCCACCTGAAGTCCAAAAAGGGTCAG'
                           'TCTACCTCCCGCCATAAAAAACTCATGTTCAAGACAGAAGGGCCTGACTCAGACTGA')

In [None]:
print(translate(secuencia[135:]))

In [None]:
proteina_desconocida = str(translate(secuencia[135:]))

<font color=#0000ff>*Define la proteína desconocida con la variable `proteina_desconocida` porque se usará para un alineamiento.* </font><br> 

In [None]:
proteina_desconocida

<hr style="height:5px;border-width:0;color:blue;background-color:blue"> 

<b style="font-size:2vw"><font color = red>Formatos y objetos de anotación de secuencias</font></b>

__bi__, abi-trim, ace, cif-atom, cif-seqres, __clustal__, __embl__, __fasta__, fasta-2line, __fastq-sanger__, fastq-solexa, __fastq-illumina__, gck, __genbank/gb__, ig, imgt, __nexus__, pdb-seqres, pdb-atom, phd, __phylip__, pir, seqxml, sff, sff-trim, snapgene, __stockholm__, swiss, tab, qual, uniprot-xml, xdna

* ### Archivos en formato fasta

#### objeto SeqRecord a partir de archivos fasta

In [None]:
# la función SeqIO tiene los atributos `.read`, `.write`, `.index`, `.parse` 
from Bio import SeqIO

# función para analizar atributos secuencias fasta
from Bio.SeqRecord import SeqRecord

 ###### Atributos de SeqRecord
 `.seq` : devuelve lasecuencia en objeto Seq  
`.id` : devuelve el identificaror de la secuencia  
`.name` : devuelve un nombre alternativo de la secuencia si lo tiene, por ejemplo el LOCUS, si no devuelve los mismo que `.id`.   
`.description` : devuelve la descripción de la secuencia  
`.annotations` : devuelve un diccionario con información sobre la secuencia.  
`.features` : devuelve una lista de objetos con información estructurada sobre las características en la secuencia, por ejemplo, posiciones de genes en el genoma, dominios de proteínas.

In [None]:
# una forma de abrir un archivo fasta y obtener la información de cada secuencia
# como se observa la función `SeqIO.parse` se le especifica el tipo de formato que se desea abrir 
# la función `enumerate` sirve para indizar un objeto iterado

for e, registro in enumerate(SeqIO.parse("../DB/SARS-CoV_&_SARS-CoV-2.faa", "fasta")):
    print(e+1, registro.id, repr(registro.seq), len(registro))

In [None]:
"""
esta es una buena opcición si se quiere editar el encabezado de todas las secuencias, eliminar o adicionar información
para crear un archivo fasta nuevo

como se muestra en el siguiente ejemplo
"""

for registro in SeqIO.parse("../DB/SARS-CoV_&_SARS-CoV-2.faa", "fasta"):
    print(registro.id)

##### un ejemplo de edición del encabezado

In [None]:
# se importa el módulo de edición de cadenas de caracteres, atributo para sustituciones = `re.sub`
import re

In [None]:
# opción 1
for registro in SeqIO.parse("../DB/SARS-CoV_&_SARS-CoV-2.faa", "fasta"):
    modificacion1 = re.sub('^...', '', registro.id)
    print(re.sub('[|].*', '', modificacion1))

In [None]:
# opción 2
for registro in SeqIO.parse("../DB/SARS-CoV_&_SARS-CoV-2.faa", "fasta"):
    print(registro.id.split('|')[1])

#### cómo elegir las secuencias 20 y 50 a partir del archivo

In [None]:
# el objeto `SeqRecord` es iterado para localizar las secuencias deseadas
for e, seq_record in enumerate(SeqIO.parse("../DB/SARS-CoV_&_SARS-CoV-2.faa", "fasta")):
    if e+1 in [20, 50]:
        print(e+1, seq_record.id, repr(seq_record.seq), len(seq_record))

#### cómo elegir secuencias con identificadores específicos (D5HJT4, Q3ZTF3, P59594)

In [None]:
for e, seq_record in enumerate(SeqIO.parse("../DB/SARS-CoV_&_SARS-CoV-2.faa", "fasta")):
    for iden in ['D5HJT4', 'Q3ZTF3', 'P59594', 'A0A6G8RR89']:
        if iden in seq_record.id:
            print(e+1, seq_record.id, repr(seq_record.seq), len(seq_record))

#### ahora se muestra solo el encabezado de cada secuencia

In [None]:
for e, seq_record in enumerate(SeqIO.parse("../DB/SARS-CoV_&_SARS-CoV-2.faa", "fasta")):
    for iden in ['D5HJT4', 'Q3ZTF3', 'P59594', 'A0A6G8RR89']:
        if iden in seq_record.id:
            print(e+1, seq_record.description)

* ### Archivos en formato Genbank

#### objeto SeqRecord a partir de archivos genbank

In [None]:
# se abre el archivo p53_humano.gb localizado en el folder DB y se guarda como objeto `SeqRecord`
sec_genbank = SeqIO.read("../DB/p53_humano.gb", "genbank")

In [None]:
# visualización del objeto `SeqRecord`
sec_genbank

In [None]:
# muestra el resultado del atributo `seq`
sec_genbank.seq

In [None]:
print(sec_genbank.seq)

In [None]:
# muestra el resultado del atributo `id`
sec_genbank.id

In [None]:
# muestra el resultado del atributo `name`
sec_genbank.name

In [None]:
# el atributo `annotations` devuelve un diccionario con información relevante de la secuenica
sec_genbank.annotations

In [None]:
# explorando la clave ['taxonomy'] del diccionario
print(sec_genbank.annotations['taxonomy'])

In [None]:
# explora la clave ['taxonomy'] del diccionario
print(sec_genbank.annotations['source'])

In [None]:
print(sec_genbank.annotations['references'])

In [None]:
# la clave 'references' tiene otros atributos que explorar
print(sec_genbank.annotations['references'][0])

In [None]:
# la clave 'references' tiene otros atributos que explorar
print(sec_genbank.annotations['references'][0].authors)

In [None]:
# lista de elementos del atributo `features`
sec_genbank.features

###### Otros atributos de SeqRecord para explorar
 `.type` : devuelve el tipo de característica dentro de la lista  
`.location` : devuelve la ubicación del tipo de característica dentro de la secuencia, por ejemplo la ubicación del CDS.  
`.qualifiers` : devuelve un diccionario con información sobre el atributo `features`.  

In [None]:
# se elige el elemento 1 de la lista para revisar el tipo de característica
sec_genbank.features[1].type

In [None]:
# del mismo elemento se revisa la localización de la característica
sec_genbank.features[1].location

In [None]:
# claves del diccionario generado por el atributo `qualifiers` 
sec_genbank.features[1].qualifiers.keys()

In [None]:
# con la clave ['translation'] se extrae la secuencia de la proteína, la proteína está dentro de una lista
sec_prot = sec_genbank.features[1].qualifiers['translation']

In [None]:
sec_prot

In [None]:
# conversión de una lista en una cadena de caracteres
"""
las comillas simples expresan que durante la transformación de la lista
entre cada letra no se agregue ningún caracter
"""

print(sec_prot)

print('\nPrimera forma obtener los caracteres')
print(''.join(sec_prot))

print('\nSegunda forma obtener los caracteres')
print(sec_prot[0])

In [None]:
# longitud de la proteína
len(''.join(sec_prot))

### Creación de un archivos fasta

In [None]:
sec01 = SeqRecord(Seq(
        "MMYQQGCFAGGTVLRLAKDLAENNRGARVLVVCSEITAVTFRGPSETHLDSMVGQALFGD"
        "GAGAVIVGSDPDLSVERPLYELVWTGATLLPDSEGAIDGHLREVGLTFHLLKDVPGLISK"
        "NIEKSLKEAFTPLGISDWNSTFWIAHPGGPAILDQVEAKLGLKEEKMRATREVLSEYGNM"
        "SSAC"),
                  id="gi|14150838|gb|AAK54648.1|AF376133_1",
                  description="chalcone synthase [Cucumis sativus]")

sec02 = SeqRecord(Seq(
        "MVTVEEFRRAQCAEGPATVMAIGTATPSNCVDQSTYPDYYFRITNSEHKVELKEKFKRMC"
        "EKSMIKKRYMHLTEEILKENPNICAYMAPSLDARQDIVVVEVPKLGKEAAQKAIKEWGQP"
        "KSKITHLVFCTTSGVDMPGCDYQLTKLLGLRPSVKRFMMYQQGCFAGGTVLRMAKDLAEN"
        "NKGARVLVVCSEITAVTFRGPNDTHLDSLVGQALFGDGAAAVIIGSDPIPEVERPLFELV"
        "SAAQTLLPDSEGAIDGHLREVGLTFHLLKDVPGLISKNIEKSLVEAFQPLGISDWNSLFW"
        "IAHPGGPAILDQVELKLGLKQEKLKATRKVLSNYGNMSSACVLFILDEMRKASAKEGLGT"
        "TGEGLEWGVLFGFGPGLTVETVVLHSVAT"),
                  id="gi|13925890|gb|AAK49457.1|",
                  description="chalcone synthase [Nicotiana tabacum]")

In [None]:
registros = [sec01, sec02]

In [None]:
SeqIO.write(registros, "../salidas/ejemplo1.faa", "fasta")

### Creación de un archivos fasta con encabezados editados (para un análisis filogenético):
> #### mantener el identificador principal.
> #### mantener el nomnre del organismo.
> #### concatenar ambos elementos (esto evita redundancias).

In [None]:
registros2 = []

for registro in SeqIO.parse("../DB/ls_orchid.fasta", "fasta"):
    header = registro.id.split('|')[1]+'_'+registro.description.split(' ')[1]
    
    objeto = SeqRecord(registro.seq, id = header, description = '')
    registros2.append(objeto)
    
    print(header)

In [None]:
registros2

In [None]:
SeqIO.write(registros2, "../DB/ls_orchid_editado.fasta", "fasta")

#### así quedó la secuencia después de la edición

In [None]:
# abrimos el archivo fasta y lo vemos en esta celda
for registro in SeqIO.parse("../DB/ls_orchid_editado.fasta", "fasta"):
    print('>'+registro.id+'\n'+registro.seq)

<b style="font-size:2vw"><font color = red>Alineamiento múltiple de secuencias (Multiple Sequence Alignment: MSA)</font></b>

<hr style="height:2px;border-width:0;color:blue;background-color:limegreen">

### <font color = black>En bioinformática, un alineamiento de secuencias es una forma de ordenar las secuencias de ADN, ARN o proteínas para identificar regiones similares que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas.</font> 
<hr style="height:2px;border-width:0;color:blue;background-color:limegreen"> 

#### Generalmente se representan en formato gráfico y de texto.
#### Es un paso inicial para la construcción de perfiles, regiones conservadas, búsqueda de unidades funcionales dentro de proteínas.

In [None]:
# carga de módulos
import sys, os
sys.path.append("../binarios/")
import edu
from Bio import AlignIO
from Bio import Phylo
import matplotlib.pyplot as plt

### [Herramientas para alineamiento de secuencias](https://en.wikipedia.org/wiki/List_of_sequence_alignment_software)

#### Cada algoritmo tiene restricciones, una de ellas es el número de secuencias aceptadas, entonces la instalación local puede ser la mejor opción.
#### <font color = green>Para hacer uso de estos recursos es necesario proporcionar un correo electrónico.</font>

In [None]:
# guarda tu email en una variable para usarla en análisis posteriores
email = 'ejemplo@hotmail.com'

#### [Clustal Omega](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3261699/)
[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Clustal+Omega+Help+and+Documentation)

##### opción 1
<img align="left" src="https://creazilla-store.fra1.digitaloceanspaces.com/emojis/47510/warning-emoji-clipart-md.png" width="25" height="25">

<font color=red> !!!!!! esta opción solo es compatible con Windows !!!!!!</font><br> 

In [None]:
# clustalo acepta secuencias fasta
comando1 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/clustalo.py --email '+email+' --stype dna --sequence ../DB/ls_orchid_editado.fasta'
cl = os.system(comando1)

In [None]:
edu.Help_clustalo

##### opción 2
<img align="left" src="https://creazilla-store.fra1.digitaloceanspaces.com/emojis/47510/warning-emoji-clipart-md.png" width="25" height="25">

<font color=red> !!!!!! esta opción solo es compatible con Windows!!!!!!</font><br> 

In [None]:
# para esta opción se necesita el módulo subprocess
import subprocess

In [None]:
# clustalo acepta secuencias fasta

os.chdir('../salidas/') # nos movemos al directorio salidas para guardar los resultados
init = edu.time_ini()
"""
Formatos de alineamientos generados por Clustalo
--outfmt={a2m=fa[sta],clu[stal],msf,phy[lip],selex,st[ockholm],vie[nna]} MSA output file format (default: fasta)
"""
subprocess.call(['python',
                 '../binarios/clustalo.py',                       # archivo de entrada en formato fasta
                 '--email', email,                                # seleción del tipo de secuencia (dna o prot)
                 '--stype',  'dna',                               # imprime el proceso
                 '--sequence', '../DB/ls_orchid_editado.fasta',   # construye un árbol filogenético en formato Newick 
                 '--outfmt', 'stockholm'])
edu.time_fin(i = init)
os.chdir('../jupyter/') # nos regresamos al directorio jupyter

##### opción 2.1
<img align="left" src="https://creazilla-store.fra1.digitaloceanspaces.com/emojis/47510/warning-emoji-clipart-md.png" width="25" height="25">

<font color=red> !!!!!! esta opción solo es compatible con Mac y Linux con python v3 !!!!!!</font><br> 

#### [Kalign](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-6-298)
[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/Kalign+Help+and+Documentation)

##### opción 1

In [None]:
# kalign acepta secuencias fasta
comando2 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/kalign.py --email '+email+' --stype dna --sequence ../DB/ls_orchid_editado.fasta'
cl = os.system(comando2)

In [None]:
edu.Help_kalign

##### opción 2

#### [MAFFT](https://pubmed.ncbi.nlm.nih.gov/12136088/)
[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/MAFFT+Help+and+Documentation)

In [None]:
# mafft acepta secuencias fasta
comando3 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/mafft.py --email '+email+' --stype dna --sequence ../DB/ls_orchid_editado.fasta'
cl = os.system(comando3)

In [None]:
edu.Help_mafft

#### [MUSCLE](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC390337/)
[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/MUSCLE+Help+and+Documentation)

In [None]:
# muscle acepta secuencias fasta
comando4 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/muscle.py --email '+email+' --sequence ../DB/ls_orchid.fasta'
cl = os.system(comando4)

In [None]:
edu.Help_muscle

#### [MView](https://academic.oup.com/bioinformatics/article/14/4/380/190019)
[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/MView+Help+and+Documentation)

In [None]:
# mview acepta alineamientos
comando5 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/mview.py --email '+email+' --stype dna --sequence ../salidas/clustalo-R20210802-025311-0860-83289883-p2m.aln-clustal_num.clustal_num'
cl = os.system(comando5)

In [None]:
edu.Help_mview

#### [T-Coffee](https://pubmed.ncbi.nlm.nih.gov/10964570/)
[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/T-coffee+Help+and+Documentation)

In [None]:
# tcoffee acepta secuencias fasta
comando6 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/tcoffee.py --email '+email+' --stype dna --sequence ../DB/ls_orchid_editado.fasta'
cl = os.system(comando6)

In [None]:
edu.Help_tcoffee

#### [PRANK](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-579)
[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/PRANK+Help+and+Documentation)

In [None]:
# prank acepta secuencias fasta
comando7 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/prank.py --email '+email+' --sequence ../DB/ls_orchid_editado.fasta'
cl = os.system(comando7)

In [None]:
edu.Help_prank

### revisar un alineamiento

In [None]:
# selección de un alineamiento
alin = "../salidas/clustalo-R20210805-212700-0790-49943213-p1m.aln-clustal_num.clustal_num"

In [None]:
# se abre el alineamiento creado y ubicado en el folder DB
alin_clustalw = AlignIO.read(alin, "clustal")

In [None]:
print(alin_clustalw)

In [None]:
# visualización del parbol filogenético en texto plano
arbol_clustal = Phylo.read("../salidas/clustalo-R20210805-212700-0790-49943213-p1m.phylotree.ph", "newick")
Phylo.draw_ascii(arbol_clustal)

In [None]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_axes([0, 0, 1, 1])
ax.axis('off')

Phylo.draw(arbol_clustal, axes = ax)


# si quiere guardar el cárbol tiene  que habilitar el siguiente comando
# fig.savefig('../salidas/arbol_ls_orchid_editado.png', dpi = 900, bbox_inches= 'tight')

### Los árboles filogenéticos pueden ser editados y visualizardos con la siguiente herramienta

### __iTol__

[<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/iTol.png" width="500" height="500">](https://itol.embl.de/)

### La siguiente herramienta realiza alineamientos MATFF y creoa árboles filogenéticos 

### NGPhylogeny.fr

[<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/NGPhylogeny.fr_web.png" width="500" height="500">](https://ngphylogeny.fr/workflows/oneclick/)



<hr style="height:5px;border-width:0;color:blue;background-color:blue">

<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/exercise_blue.png" width="90" height="80">

<font color=#0000ff> <b>Ejercicio:</b> *realiza un MSA usando el archivo __SARS-CoV_&_SARS-CoV-2.faa__ el cual contiene secuencias de la proteína Spike (una glucoproteína transmembranal), de preferencia usa el programa __Clustal Omega__.* </font><br>


<hr style="height:5px;border-width:0;color:blue;background-color:blue"> 

<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/exercise_blue.png" width="90" height="80">


### <font color = blue>Opcional</font></br>
#### <font color = blue>Alineamiento de 40 genomas completos de SARS CoV y SARS CoV-2 de humano, y SARS CoV de murciélago y civeta.</font>
####  <font color = blue>Comparar el resultado con el de la siguiente publicación.</font>

[<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/paper_covid19.png" width="700" height="700">](https://onlinelibrary.wiley.com/doi/full/10.1002/prot.25967)

<img align="left" src="https://onlinelibrary.wiley.com/cms/asset/7ccdfbd5-9fa8-4089-9484-a9e0726ad51f/prot25967-fig-0003-m.jpg" width="400" height="400">


### Manipulando alineamientos

In [None]:
# se abre un archivo de alineamiento múltiple de secuencias
alineamiento = AlignIO.read(alin, "clustal")

In [None]:
print(alineamiento)

In [None]:
# número de secuencias alineadas
print("Number of rows: " + str(len(alineamiento)))

In [None]:
# iteración del alineamiento (línea por línea), el 50 indica la cantidad de nucleótidos a mostrar
for record in alineamiento:
    print(record.id, record.seq[0:50])

In [None]:
# imprime las 10 primeras filas sin restringir las columnas (nucleótidos)
print(alineamiento[0:10])

In [None]:
# se obtienen los identificadores del alineamiento
for record in alineamiento:
    print(record.id)

In [None]:
# una manera de extraer informacion de cualquier parte del alineamiento
"""
[:, :] = esta orden indica cuántas filas y cuántas columnas quiero extraer
por ejemplo [0:5, 0:5] indica que tomará de la fila 0 a la 5, y de la columna 0 a la 5,
esta acción está configurada de tal modo que las columnas hacen referencia a los nucleótidos.
"""

print(alineamiento[0:5, 0:5])

In [None]:
print(alineamiento[3:12, 5:25])

In [None]:
# se pueden concatenar fragmentos extraidos de los alineamientos
editado = alineamiento[:5, :2] + alineamiento[:5, 22:28]
print(editado)

In [None]:
# visualización antes de ser ordenado (por orden alfabético de identificadores)
print(alineamiento)

In [None]:
alineamiento.sort()

In [None]:
# después de ser ordenado
print(alineamiento)

<b style="font-size:2vw"><font color = red>BLAST</font></b>

### Ejecución de BLAST a través de internet

> #### Programas:
`blastn`    
`blastp`  
`blastx`  
`tblast`  
`tblastx`
> #### Las bases de datos disponibles son:  
`nr/nt`  
`refseq_select`  
`refseq_rna`  
`refseq_representative_genomes`  
`refseq_genomes`  
`wgs`  
`est`  
`SRA`  
`TSA`  
`HTGS`  
`pat`  
`pdb`  
`RefSeq_Gene`  
`dbsts`

In [None]:
from Bio.Blast import NCBIWWW
from Bio.Blast import NCBIXML
from Bio import SearchIO

#### Ejecutando Blast usando un objeto `Seq`

In [None]:
mi_sec

In [None]:
"""
Es importante seleccionar el tipo de programa usado y la base de datos.
"""
programa1 = 'blastn'
db1 = 'nr'

In [None]:
# solo permite hacer el análisis con una secuencia
init = edu.time_ini()
resultado_1 = NCBIWWW.qblast(programa1, db1, mi_sec)
edu.time_fin(i = init)

In [None]:
# se guarda el resultado en un archivo XML
with open("../salidas/resultado_1_"+programa1+".xml", "w") as temp:
    temp.write(resultado_1.read())

In [None]:
resultado_blast1 = SearchIO.read("../salidas/resultado_1_"+programa1+".xml", "blast-xml")

In [None]:
print(resultado_blast1)

<hr style="height:5px;border-width:0;color:blue;background-color:blue">

<img align="left" src="https://raw.githubusercontent.com/eduardo1011/curso_08_2021/main/exercise_blue.png" width="90" height="80">

<font color=#0000ff> <b>Ejercicio:</b> *realiza un blastp usando la secuencia de la proteína desconocida que identificaste anteriormente.* </font><br>


In [None]:
proteina_desconocida

<hr style="height:5px;border-width:0;color:blue;background-color:blue"> 

#### Ejecución de Blast usando un archivo fasta con una secuencia

In [None]:
programa2 = 'blastp'
db2 = 'nr'

In [None]:
fasta_string = open("../DB/p53_humano.faa").read()

In [None]:
# solo permite hacer el análisis con una secuencia
init = edu.time_ini()
resultado_2 = NCBIWWW.qblast(programa2, db2, fasta_string)
edu.time_fin(i = init)

In [None]:
# se guarda el resultado en un archivo XML
with open("../salidas/resultado_2_"+programa2+".xml", "w") as temp:
    temp.write(resultado_2.read())

In [None]:
resultado_blast2 = SearchIO.read("../salidas/resultado_2_"+programa2+".xml", "blast-xml")

In [None]:
print(resultado_blast2)

#### analizando los resultados del Blast

In [None]:
for hit in resultado_blast1:
    print(hit)

In [None]:
len(resultado_blast1)

In [None]:
resultado_blast1[10]

In [None]:
resultado_blast1[0]

In [None]:
print(resultado_blast1[:3])

In [None]:
# diccionarios
resultado_blast1["gi|2075648319|gb|MZ686192.1|"]

In [None]:
for hit in resultado_blast1[:5]:   # id and sequence length of the first five hits
    print("%s %i" % (hit.id, hit.seq_len))

In [None]:
sort_key = lambda hit: hit.seq_len
sorted_qresult = resultado_blast1.sort(key=sort_key, reverse=True, in_place=False)
for hit in sorted_qresult[:5]:
    print("%s %i" % (hit.id, hit.seq_len))

In [None]:
def map_func(hit):
    hit.id = hit.id.split("|")[3]   # renames "gi|301171322|ref|NR_035857.1|" to "NR_035857.1"
    return hit

mapped_qresult = resultado_blast1.hit_map(map_func)
for hit in mapped_qresult[:5]:
    print(hit.id)

In [None]:
blast_hit = resultado_blast1[3]    # fourth hit from the query result
print(blast_hit)

In [None]:
blat_hit = resultado_blast1[0]      # the only hit
print(blat_hit)

#### Ejecución de Blast: método 2

[Documentation](https://www.ebi.ac.uk/seqdb/confluence/display/JDSAT/PRANK+Help+and+Documentation)

[Bases de datos compatibles con esta opción](https://www.ebi.ac.uk/seqdb/confluence/pages/viewpage.action?pageId=94148032)

* Usando un archivo con proteínas en formato fasta

In [None]:
uniprotkb, uniprotkb_swissprot, uniprotkb_swissprotsv, uniprotkb_trembl, uniprotkb_refprotswissprot, uniprotkb_archaea, uniprotkb_arthropoda

In [None]:
edu.Help_ncbiblast

In [None]:
# ncbiblast acepta solo una secuencia fasta
comando8 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/ncbiblast.py --email '+email+' --program blastp --stype protein --sequence ../DB/p53_humano.faa --database uniprotkb'
cl = os.system(comando8)

In [None]:
display(Image(filename='../salidas/ncbiblast-R20210805-180131-0246-5917649-p2m.ffdp-query-png.png'))

* Usando un archivo con genes en formato fasta

In [None]:
# ncbiblast acepta solo una secuencia fasta
comando8 = 'start cmd /k cd ../salidas/ ^&^& python ../binarios/ncbiblast.py --email '+email+' --program blastn --stype dna --sequence ../DB/p53_humano.fna --database em_hum'
cl = os.system(comando8)

In [None]:
display(Image(filename='../salidas/ncbiblast-R20210805-183244-0204-33712552-p1m.visual-png.png'))