In [1]:
! cat utils_notebook.py

from IPython.display import HTML

def web(direccion, alto=500):
    """str [, int]
    Muestra una web"""
    code = '<iframe src="' + direccion +  '"  width=100% height=' + str(alto) + '></iframe>'
    return( HTML(code) )

def wiki(art, idioma="en", modo=None, alto=500):
    """str [, str [, str [, int]]]
    Muestra una wiki por defecto en idioma 'en'
    modo por defecto, None (normal). Probar 'mobile' o 'print'
    """
    if modo=="print":
        direc = 'http://' + idioma + '.wikipedia.org/w/index.php?title=' + art + '&printable=yes'
    elif modo=="mobile":
        direc = "http://" + idioma + ".mobile.wikipedia.org/wiki/" + art
    else:
        direc = "http://" + idioma + ".wikipedia.org/wiki/" + art
    return( web(direc, alto=alto) )

if __name__ == "__main__":
  print("Para importar en IPython Notebook")


In [2]:
import utils_notebook as ut

# Alineamiento de un grupo de Ortólogos

<img src="imagenes/oma.png">

<img src="imagenes/fasta.png">

De manera similar a [wget en bash](http://manpages.ubuntu.com/manpages/precise/man1/wget.1.html), es posible descargar un archivo desde Python usando [urlretrieve del módulo urllib](https://docs.python.org/2/library/urllib.html#urllib.urlretrieve)

In [29]:
from urllib import urlretrieve

urlretrieve(url="http://omabrowser.org/oma/vps/RATNO03710/fasta/", filename="RATNO03710.fasta")

('RATNO03710.fasta', <httplib.HTTPMessage instance at 0x7f9a0c5f4fc8>)

```!``` al principio de la celda para correr cosas en ```bash``` sólo funciona para ```IPython```. Cuando queremos correr algo en la consola desde otro lugar (en un *script* por ejemplo) lo correcto es usar el [módulo subprocess](https://docs.python.org/2/library/subprocess.html). 

In [30]:
import subprocess

print( subprocess.check_output(["head","RATNO03710.fasta"]) )

>RATNO03710 | P53_RAT | self | [Rattus norvegicus]
MEDSQSDMSIELPLSQETFSCLWKLLPPDDILPTTATGSPNSMEDLFLPQDVAELLEGPEEALQVSAPAAQEPGTEAPAP
VAPASATPWPLSSSVPSQKTYQGNYGFHLGFLQSGTAKSVMCTYSISLNKLFCQLAKTCPVQLWVTSTPPPGTRVRAMAI
YKKSQHMTEVVRRCPHHERCSDGDGLAPPQHLIRVEGNPYAEYLDDRQTFRHSVVVPYEPPEVGSDYTTIHYKYMCNSSC
MGGMNRRPILTIITLEDSSGNLLGRDSFEVRVCACPGRDRRTEEENFRKKEEHCPELPPGSAKRALPTSTSSSPQQKKKP
LDGEYFTLKIRGRERFEMFRELNEALELKDARAAEESGDSRAHSSYPKTKKGQSTSRHKKPMIKKVGPDSD

>MOUSE03360 | Q549C9 | 1:1 ortholog | [Mus musculus]
MTAMEESQSDISLELPLSQETFSGLWKLLPPEDILPSPHCMDDLLLPQDVEEFFEGPSEALRVSGAPAAQDPVTETPGPV
APAPATPWPLSSFVPSQKTYQGNYGFHLGFLQSGTAKSVMCTYSPPLNKLFCQLAKTCPVQLWVSATPPAGSRVRAMAIY



In [31]:
from Bio import SeqIO

sequencias = SeqIO.parse("RATNO03710.fasta","fasta")

for record in sequencias:
    print(record.description)

RATNO03710 | P53_RAT | self | [Rattus norvegicus]
MOUSE03360 | Q549C9 | 1:1 ortholog | [Mus musculus]
CIOIN05889 | F6SSG7 | 1:1 ortholog | [Ciona intestinalis]
CIOSA13478 | H2ZGE3 | 1:1 ortholog | [Ciona savignyi]
ORYLA07425 | H2LPP5 | 1:1 ortholog | [Oryzias latipes]
TUPBE00446 | ENSTBEG00000011771 | 1:1 ortholog | [Tupaia belangeri]
DAPPU06159 | E9FW11 | 1:1 ortholog | [Daphnia pulex]
BRAFL04526 | C3YXH3 | 1:1 ortholog | [Branchiostoma floridae]
PEDHC00225 | E0V916 | 1:1 ortholog | [Pediculus humanus subsp. corporis]
GADMO03540 | ENSGMOG00000000413 | 1:1 ortholog | [Gadus morhua]
LATCH10910 | H3B1Z4 | 1:1 ortholog | [Latimeria chalumnae]
LEPOC07666 | W5N8V4 | 1:1 ortholog | [Lepisosteus oculatus]
ASTMX10477 | W5KI53 | 1:1 ortholog | [Astyanax mexicanus]
NASVI15815 | K7IV69 | 1:1 ortholog | [Nasonia vitripennis]
DANRE21553 | G1K2L5 | m:1 ortholog | [Danio rerio]
XENTR12242 | F7A9U0 | m:1 ortholog | [Xenopus tropicalis]
TETNG08947 | H3CXQ0 | m:1 ortholog | [Tetraodon nigroviridis]
TAKR

In [8]:
ut.web("http://xkcd.com/208/")

En Python las expresiones regulares se obtienen a través del [módulo re](https://docs.python.org/2/library/re.html).

In [14]:
import re

expresion_regular = re.compile(" 1:1 ortholog | self ")

In [15]:
ut.web("http://regex101.com", alto=500)

In [32]:
ortholog = {}

sequencias = SeqIO.parse("RATNO03710.fasta","fasta")

for record in sequencias:
    if expresion_regular.search(record.description):
        ortholog[record.description] = record.seq

ortholog

{'ASTMX10477 | W5KI53 | 1:1 ortholog | [Astyanax mexicanus]': Seq('MSDLEIMAMPMSQGTFEQLWGDIGSDSGFNHLIAELPRADSDAWLSVALPDGNF...DTD', SingleLetterAlphabet()),
 'BRAFL04526 | C3YXH3 | 1:1 ortholog | [Branchiostoma floridae]': Seq('MEDSLPFPDLDNDTTTTFAQLWNDSSITEADFGDMGEFFQQMEGNVRNVSNDHS...TWE', SingleLetterAlphabet()),
 'CIOIN05889 | F6SSG7 | 1:1 ortholog | [Ciona intestinalis]': Seq('MAVADTSELNFPDSQESFSDFWMNTLSENNELPSWQTDLNQEYDQCKETVDVLQ...NQI', SingleLetterAlphabet()),
 'CIOSA13478 | H2ZGE3 | 1:1 ortholog | [Ciona savignyi]': Seq('FNMADSTEPNLPDSQESFSEFWCSSLQTNDFPNIVIDESALPATSNWQTYTTMA...NQM', SingleLetterAlphabet()),
 'DAPPU06159 | E9FW11 | 1:1 ortholog | [Daphnia pulex]': Seq('MDGQPPGYYDFQQQQLMDTTTYPINNCPVVPINTSPTFDISNGVPAMELWPGHL...EEP', SingleLetterAlphabet()),
 'GADMO03540 | ENSGMOG00000000413 | 1:1 ortholog | [Gadus morhua]': Seq('MLYLEGLTAAYSESQYTNLGLLNSMDQSIQNGGSTSTSPYNNDHAQNNVAAPSP...LQK', SingleLetterAlphabet()),
 'LATCH10910 | H3B1Z4 | 1:1 ortholog | [Latimeria chalumnae]': Seq('M

In [34]:
with open("RATNO03710_ortologos.fasta","w") as fh:
    for desc, seq in ortholog.iteritems():
        ident = desc.split("|")[0].replace(" ","")
        fh.write(">%s\n%s\n"%(ident,seq))

In [41]:
salida = subprocess.check_output(["head", "-2", "RATNO03710_ortologos.fasta"])

salida

'>PEDHC00225\nMASWYSCRTNESLEREESDILNPEEFQHVLEYEPPVLNETKIYCQPSLPSADSTFVNNTNSTSTGPLPAREDYPGPFAFSVLLDGVESTKNKWTYSTMLNKLYIVWDKIIPIQFKWIPSEPNFVVRALPVYTDAQDMKLAVKRCLIHLNASDPTNEGFEHVKHVIRSDNPGVYYEENQESERCSVVVPLGELQPGTGTVTVTYKFMCKTTCVTGMMRRPITVLFTLERPNGEVVGRQKLNVKICSCPKRDMQKDESSANEKQEEGRKRPLALASTSKRMKTEDEEEEFHLDMVIENKDTYKCILESMHAAILRIMRMTQKTHSSYSELTKLLRDVETRLSRLIDS\n'

In [42]:
print( salida )

>PEDHC00225
MASWYSCRTNESLEREESDILNPEEFQHVLEYEPPVLNETKIYCQPSLPSADSTFVNNTNSTSTGPLPAREDYPGPFAFSVLLDGVESTKNKWTYSTMLNKLYIVWDKIIPIQFKWIPSEPNFVVRALPVYTDAQDMKLAVKRCLIHLNASDPTNEGFEHVKHVIRSDNPGVYYEENQESERCSVVVPLGELQPGTGTVTVTYKFMCKTTCVTGMMRRPITVLFTLERPNGEVVGRQKLNVKICSCPKRDMQKDESSANEKQEEGRKRPLALASTSKRMKTEDEEEEFHLDMVIENKDTYKCILESMHAAILRIMRMTQKTHSSYSELTKLLRDVETRLSRLIDS



Para poder alinear nuestras secuencias vamos a instalar el **clustalw**, no es el mejor programa para realizar alineamientos múltiples, pero nos servirá.
Para **instalar un paquete en Ubuntu** necesitamos hacer `apt-get install` como superusuarios (`sudo`), por ejemplo en este caso:
```bash
sudo apt-get install clustalw
```
En muchos casos, si no está instalado el software que necesitan, Ubuntu les va a decir que necesitan instalar para conseguirlo:
```
bioinfo@bioinfo:~$ clustalw
El programa «clustalw» no está instalado. Puede instalarlo escribiendo:
sudo apt-get install clustalw
```

*Clustal* tiene muchos argumentos que puede recibir por línea de comandos y que nos permiten personalizar su corrida. Pueden usar `man clustalw` en la consola de *bash* o [googlear esa misma frase](https://hpcwebapps.cit.nih.gov/multi-align/man/clustalw.1.html) para ver la documentación. En particular, nosotros usaremos los siguientes argumentos:

>   -INFILE=xxx.yyy  
          input sequence file  
     -outfile=xxx.yyy  
          output sequence alignment file name  
     -output=xxx  
          output has sequences in xxx format. Choices are GCG,  
          GDE, PHYLIP or PIR.  

Podemos ejecutar programas y comandos del sistema usando [call](https://docs.python.org/2/library/subprocess.html#using-the-subprocess-module) de *subprocess*.

In [43]:
# En Bash:
# clustalw -INFILE=RATNO03710_ortologos.fasta -align -outfile=RATNO03710_ortologos.phylip -output=PHYLIP

# Desde Python:
subprocess.call(["clustalw", "-INFILE=RATNO03710_ortologos.fasta", "-align", 
                 "-outfile=RATNO03710_ortologos.phylip", "-output=PHYLIP"])

0

Por cuestiones de seguridad informática no es recomendable llamar al sistema operativo de manera directa para hacer *pipes*. [Es necesario usar](https://docs.python.org/2/library/subprocess.html#replacing-shell-pipeline) `Popen`, `PIPE` y `comunicate` de *subprocess* en lugar de una llamada directa al sistema:

In [55]:
! ls -ltr | tail -5

-rw-rw-r-- 1 dzea dzea    10339 mar 21 21:32 RATNO03710.fasta
-rw-rw-r-- 1 dzea dzea     5444 mar 21 21:33 RATNO03710_ortologos.fasta
-rw-rw-r-- 1 dzea dzea      415 mar 21 21:35 RATNO03710_ortologos.dnd
-rw-rw-r-- 1 dzea dzea     9361 mar 21 21:35 RATNO03710_ortologos.phylip
-rw-rw-r-- 1 dzea dzea    21760 mar 21 21:38 Alineamiento de Ortologos.ipynb


In [56]:
p1 = subprocess.Popen(["ls", "-ltr"], stdout=subprocess.PIPE)
p2 = subprocess.Popen(["tail", "-5"], stdin=p1.stdout, stdout=subprocess.PIPE)
p1.stdout.close()  # Allow p1 to receive a SIGPIPE if p2 exits.
output = p2.communicate()[0]

print(output)

-rw-rw-r-- 1 dzea dzea    10339 mar 21 21:32 RATNO03710.fasta
-rw-rw-r-- 1 dzea dzea     5444 mar 21 21:33 RATNO03710_ortologos.fasta
-rw-rw-r-- 1 dzea dzea      415 mar 21 21:35 RATNO03710_ortologos.dnd
-rw-rw-r-- 1 dzea dzea     9361 mar 21 21:35 RATNO03710_ortologos.phylip
-rw-rw-r-- 1 dzea dzea    21760 mar 21 21:38 Alineamiento de Ortologos.ipynb



In [57]:
subprocess.os.listdir(".") # Como ls pero para Python

['image_trimmed.png',
 'blastn_filter.txt',
 'ejemplo.pyc',
 'ortologos_clean.dnd',
 'imagen_todo.png',
 'clases_anteriores.py',
 'ortologos.dnd',
 'mammals.csv',
 'List comprehension.ipynb',
 'sequence.fasta',
 'codones.txt',
 'BioSeq.ipynb',
 'imagen_toxo_1.png',
 'BLAST.ipynb',
 'aln_ortologos.phylip',
 'ortologos.aln',
 'PlantGrowth.tsv',
 'toxo.phr',
 'imagen_final2.png',
 'pdb4ni1.ent',
 'clases_anteriores.pyc',
 'Alineamiento de Ortologos.ipynb',
 'utils_notebook.py',
 'utils_notebook.pyc',
 'ortologos_clean.fasta',
 'blastn.txt',
 'Scripts en Python.ipynb',
 'RATNO03710.fasta',
 'ejemplo.py',
 'imagen_toxo_2.png',
 '.ipynb_checkpoints',
 'Animals2.csv',
 'PDB BioPython.ipynb',
 'ortologos.phylip',
 'imagen_final.png',
 'RATNO03710_ortologos.dnd',
 'imagen_blastx.png',
 'RATNO03710_ortologos.phylip',
 'blastn_trimmed.txt',
 'imagenes',
 'ortologos.html',
 'Normalidad.ipynb',
 'NA.ipynb',
 'wrong.file',
 'RATNO03710_ortologos.fasta',
 'Explorando Datos con pandas.ipynb',
 'format

In [61]:
! cat RATNO03710_ortologos.phylip

    14    498
RATNO03710 ---MEDSQSD MSIELPLSQE TFSCLWKLLP ---------- --PDDILPTT 
MOUSE03360 MTAMEESQSD ISLELPLSQE TFSGLWKLLP ---------- --PEDILP-- 
TUPBE00446 ---MEEPQSD LSVELPLSQE TFSDLWSLLP ---------- --GQDLLSSS 
LEPOC07666 ---MADPEPE G---LPLSQE SFQELWNMVI VLH------- R---AVPPEN 
LATCH10910 ---MTDPMSE SGL-EPLSQE SFADLWNLLP TSM------- SNNVDLLPEE 
ORYLA07425 -----WESMD PVPDLPESQG SFQELWETVY PP-------- ---LETLSLP 
ASTMX10477 ------MSDL EIMAMPMSQG TFEQLWGDIG SDS------- G--FNHLIAE 
GADMO03540 ------MLYL EGLTAAYSES QYTNLG---- ---------- ---------- 
CIOIN05889 ----MAVADT SELNFPDSQE SFSDFWMNTL SENNELPSWQ TDLNQEYDQC 
CIOSA13478 ----FNMADS TEPNLPDSQE SFSEFWCSSL QTN-DFPNIV IDESALPATS 
BRAFL04526 ----MEDSLP FPDLDNDTTT TFAQLWNDSS ---------- --ITEADFGD 
PEDHC00225 ---------- --------MA SWYSCRTNES ---------- ---------- 
DAPPU06159 ---------- ----MDGQPP GYYDFQ---- ---------- ---------- 
NASVI15815 ----MTREGS SLLTNSQEEQ LLQEYATTNG ---------- --TIDIDPLQ 

           ATGSPNSMED LFLPQDVAE