# Análisis preliminar de secuenicas de Sanger
## Mauricio Serna
### Biología Computacional
#### 6 de junio 2016

La identificación de especies por medios moleculares es una herramienta en auge. Esta técnica se basa en el uso de genes específicos para identificar una especies por medio de la comparación con bases de datos como el NCBI. Los genes mitocondriales (e.g. CytB, COI) son ampliamente utilizados ya que debido a la ausencia de intrones, la baja recombinación genética y sobre todo, su modo de herencia haploide, lo cual le confiere baja variación intraespecífica, pero suficiente variación interespecifica como para diferenciar secuencias entre especies cercanamente emparentadas (Hebert et al., 2003). Adicionalmente, estos genes son de fácil obtención en el laboratorio debido al alto número de copias del genoma mitocondrial y a la alta disponibilidad de primers para su amplificación (e.g. Ivanova, Clare & Borisenko, 2012; Voss et al., 2013).
<br>
<br>
La tecnología de Sanger ha sido ampliamente utilizada para este fin debido a sus bajos costos para secuenciar segmentos menores a 1000 pares de bases(https://www.genome.gov/27541954/dna-sequencing-costs-data/). Sin embargo, esta tecnología está sujeta a errores y a contaminaciones hechas por las facilities de secuenciamiento (e.g. McLab, Macrogen) y por ende es importante hacer un análisis de los resultados en los 5 primeros días para que las secuencias erróneas puedan ser repeditas.
<br>
<br>
En el presente trabajo se generó un pipeline (ver diagrama de flujo) que hace un análisis preliminar de las secuencias enviadas por la facilty de secuenciamiento.

### Diagrama de flujo del pipeline

![y](Diagrama_flujo_imangen.png)
<br>
<br>
**Pasos:**
<br>
1. La facility de secuenciamiento envía una carpeta que contine 4 archivos diferentes por muetra enviada. El primer módulo extrae los arvhicos .abi que son los que tienen la información de la secuencia y de los valores de calidad (phred values).
2. Estos arvhicos abi son trimados por el módulo 2. Este módulo contiene varias funciones que leen la secuencia y los phred values y triman la secuencia para eliminar los extremos que tienen baja calidad. 
3. Luego de que las secuencias están trimadas, el módulo 3 toma como entrada cada una de estas secuencias trimadas y hace un BLAST a la base de datos de nucleótidos.
4. El BLAST arroja una información la cual es organizada en una tabla tipo .csv con los ítems necesarios para hacer el análisis de si la secuencia esta buena o no en cada columna. Estos ítems son: 1. Nombre del arvhivo abi, 2. Número de acceso de la secuencia del NCBI con mayor identidad, 3. Nombre de la secuencia del NCBI con mayor identidad, 4. E_value del alineamiento y 5. Porcentaje de identidad del alineamiento. 
<br>
<br>
Es importante notar que todos estos módulos están incluídos en un main.py que toma como **entrada** la carpeta de arvhicos enviada por la facility de secuenciamiento y como **salida** la tabla en arvhico .cvs que tiene la información de los BLASTs.

### ¿Como usar el algortimo?
<br>
En la carpeta llamada **funciones** estan todos los módulos necesarios para correr el algoritmo.
<br>
<br>
Para correrlo se necesita python3 y se debe hacer lo siguiente:
<br>
1. Seleccionar como directorio la carpeta **funciones**
2. Tener una carpeta con las secuencias que se desea analizar.
3. Código:<br>
    from main import main<br>
    main('path/carpeta_analizar')

Esto generará un archivo llamado **Resultados.csv** en la carpeta **funciones** que puede ser abierto en Excel.
<br>
<br>
Para revisar y entender como funciona cada uno de los módulo abrir cada uno y leer las especificaciones de cada función

## Algoritmo 

In [5]:
# Seleccionar el directorio donde están los módulos 
import os
os.chdir('Funciones/')

In [6]:
# Algoritmo
from main import main
main('../Seqs/') # Seqs es el path de la carpeta donde estan las secuencias

In [11]:
os.listdir()

['.DS_Store',
 '.ipynb_checkpoints',
 '.Rapp.history',
 '__pycache__',
 'blast.py',
 'leer_abis.py',
 'main.py',
 'Resultados.csv',
 'tabla_csv.py',
 'trimming.py']

Se puede observar que en la carpeta existe un archivo **Resultados.csv**. Este contiene la información del BLAST de las secuencias.
<br>
Si se abre este archivo en excel, la información se visualizará así:
<br>
![y](Excel.png)
<br>
Es importante notar que el % de identidad no es leido de la forma correcta por excel y por ende parece un númeor muy grande. Es por esto qu se deben tomar los dos primeros números como los número correspondientes al porcentaje. 

## Pruebas del algoritmo

Para comprobar que el algoritmo si funciona bien se hizo lo siguiente:
<br>
    1. Se trimiaron las mismas secuencias con genious.
    2. Se hizo BLAST a cada uno de las secuenicas trimadas y se generó una tabla de excel.
    3. Se compararon los resultados. 
        Ver imagen columna Igualdad
        a. Color rojo significa que el BLAST no es igual para la secuencia trimada y blasteada a mano que para la secuencia analizada con el algoritmo.
        b. Color verde significa que el BLAST es igual para ambos métodos (el manual y con el algoritmo)

### Resultados
<br>
![y](Excel_comparación.png)
<br>
<br>
En la imagen se puede observar que la mayoría de las secuencias se blastearon con el mismo registro del NCBI con la forma manual y con el algoritmo. La única secuencia en donde el BLAST no dio igual fue la primera, esto se debe a que la forma de trimar es diferente en los dos métodos. Sin embargo esto no es problemático ya que se puede observar que se alinea con otro organismo de la misma especie. 

## Conclusiones

Este algoritmo permite hacer, de forma rápida y fácil, un análisis preliminar del archivo enviado por las facilities de secuenciamiento Sanger. Lo anterior permite identificar cuales secuencias tienen errores o contaminaciones que deben ser repetidas. Aunque es un algoritmo fácil de usar, cabe aclarar que debido a que el BLAST se hace por medio de una conección remota al NCBI, es necesario tener una muy buena conección a internet. 

## Bibliografía

    HEBERT PDN, CYWINSKA A, BALL SL, DEWAARD JR. 2003a. Biological identifications through DNA barcodes. Proceedings of the Royal Society of London 270: 313-321.
    
    IVANOVA NV, CLARE EL, BORISENKO AV. 2012. DNA Barcoding in mammals. Methods in Molecular Biology 858: 153-182.
    
    VOSS RS, LIM BK, DÍAZ-NIETO JF, JANSA SA. 2013. A New Species of Marmosops (Marsupialia: Didelphidae) from the Pakaraima Highlands of Guyana, with Remarks on the Origin of the Endemic Pantepui Mammal Fauna. American Museum Novitates, 3778: 1-27.
