# Proyecto Bioinformatica
## Introducción
La célula guarda toda la información genética de un organismo en el ADN, formando a su vez una estructura que se organiza hasta llegar a formar los cromosomas, como se observa en la figura 1.1.  La cantidad de cromosomas varía según cada especie, por ejemplo, en humanos, normalmente son 23 pares de cromosomas (MedlinePlus, 2024) , en perros son 39 pares de estos (AxonVet, 2024).  Adicionalmente, en mamíferos, existen 2 cromosomas sexuales, los cuales indican el género del organismo, donde XY es el cariotipo de los machos y XX el de las hembras (AxonVet, 2024). No obstante, especies de insectos como saltamontes, en vez de definirse por XX o XY, las hembras presentan un cariotipo XX y los machos X (Navia, 1999), demostrando una variedad de cariotipos de interés.  

 

Figura 1.1. (National Human Genome, 2024) 

Estos cromosomas, al ser de vital importancia para el organismo, están protegidos por en los extremos por telómeros, en la figura 1.1, se observan en color naranja. Estos telómeros son secuencias repetitivas de ADN que evita que los cromosomas se desgasten o se enreden. Adicionalmente, cumplen un rol supremamente importante en la división celular, pues, cada vez que la célula se divide, los telómeros se acortan, asociándose con el envejecimiento celular, lo que hace que, en un punto dado, los telómeros se acorten tanto que la célula ya no pueda seguir dividiéndose adecuadamente y mueran (National Human Genome, 2024). 

Para contrarrestar el acortamiento telomérico, las células poseen una enzima llamada telomerasa, la cual, es capaz de alargar los telómeros, restaurando su longitud original (Amador, 2021.  

La actividad de la telomerasa es fundamental durante el desarrollo embrionario y en células madre, donde la proliferación celular es constante. Sin embargo, en la mayoría de las células somáticas, la actividad de la telomerasa se silencia, lo que conduce al acortamiento progresivo de los telómeros y, finalmente, a la senescencia celular (Amador, 2021). 

La telomerasa es una enzima altamente conservada evolutivamente, lo que sugiere su importancia para la supervivencia celular. Sin embargo, existen diferencias notables en la secuencia y estructura de la telomerasa entre diferentes organismos. Estas diferencias podrían estar relacionadas con factores como la tasa de división celular, la longevidad y la complejidad del organismo (Amador, 2021). 

Es por la razón anteriormente mencionada que en este proyecto se tiene como objetivo analizar las diferencias en la secuencia de la telomerasa entre diferentes organismos y construir un árbol filogenético que refleje las relaciones evolutivas entre ellos. Al comparar las secuencias de la telomerasa, se podrá identificar regiones conservadas y variables, lo que nos permitirá inferir su función y su evolución. Además, este análisis filogenético permitirá explorar si existen correlaciones entre las características de la telomerasa y otros rasgos biológicos, como la longevidad o la tasa de envejecimiento. 

Se plantea la hipótesis de que las diferencias en la secuencia de la telomerasa entre diferentes organismos reflejan adaptaciones evolutivas a diferentes estilos de vida y entornos. Además, se espera que el análisis filogenético revele patrones de evolución convergente o divergente en la telomerasa, lo que podría proporcionar información sobre los mecanismos moleculares que subyacen al envejecimiento y la longevidad. 
## Script
Con el fin de entender las propiedades de la telomerasa a continuación se comparara las secuencias TERT de distintas especies de organismos para comparar los dominios y propiedades, por lo que se realizara un alineamiento, arbol filogenetico y comparación de los dominios de las enzimas de la telomerasa con las siguientes especies: 
1. Emydura macquarii macquarii (Reptile)
2. Nanorana parkeri (Anfibio)
3. Xenopus laevis (Anfibio)
4. Homo sapiens (Mamifero)
5. Saccharomyces cerevisiae (Levadura)
6. Danio rerio (pez)
7. Arabidopsis thaliana (Planta)
8. Caenorhabditis elegans (Nematodo)
9. Gallus gallus (Ave)

 Llinks de referencia:
1. https://www.ncbi.nlm.nih.gov/nucleotide/XM_067557410.1?report=genbank&log$=nucltop&blast_rank=11&RID=JG35C48R013
2. https://www.ncbi.nlm.nih.gov/nucleotide/XM_018569233.1?report=genbank&log$=nucltop&blast_rank=9&RID=JG35C48R013
3. https://www.ncbi.nlm.nih.gov/nuccore/XM_041565229.1?report=fasta
4. https://www.ncbi.nlm.nih.gov/nuccore/NM_198253.3?report=fasta
5. https://www.ncbi.nlm.nih.gov/nuccore/NM_001182207.2?report=fasta
6. https://www.ncbi.nlm.nih.gov/nuccore/XM_068215204.1?report=fasta
7. https://www.ncbi.nlm.nih.gov/nuccore/NM_121691.4?report=fasta
8. https://www.ncbi.nlm.nih.gov/nuccore/NM_059972.7?report=fasta
9. https://www.ncbi.nlm.nih.gov/nuccore/XM_040684291.2?report=fasta


# Primera opción
Una vez haya descargado las secuencias nucleotidicas de los organismos lo primero que llevaremos a cabo sera la union de estas en un mismo archivo .txt, para lograr llevar a cabo más adelante la alineación mediante clustalW

In [None]:
#!/bin/bash/
# Script para unir todos los archivos .txt en un solo archivo
output_file="alineamientos.fasta"
# Crear archivo de salida o lo eliminamos para empezar desde cero
if [ -f "$output_file" ]; then
    rm "$output_file"
fi
for file in *.fasta
do
    # Verificamos que realmente existan archivos .fasta
    if [ -f "$file" ]; then
        echo "Uniendo el archivo: $file"
        cat "$file" >> "$output_file"
    fi
done

echo "Archivos unidos en $output_file"



In [None]:
# Paso 2

A continuación llevaremos el analisis de clustalW en el archivo llamado "alineamientos.fasta"

In [None]:
#!/bin/bash/
#Script para generar a cabo el alineamiento y obtener un out put
clustalw -infile=alineamientos.fasta -type=nucleotide -output=phylip
# Del anterior codigo se obtendran archivos con el mismo
# nombre mas estos terminaran en dnd.phy siendo el .phy el usado para formar el árbol filogenetico
iqtree2 -s alineamientos.phy
# Al llevar acabo dicho proceso se obtendran varios archivos output 
# Siedo el de nuestro interes el archivo alineamiento.phy.iqtree ya que se comprende directamente la información filogenetica


# Opcion 2
Para lograr llevar a cabo el mismo analisis se puede realizar a partir del software en linea de clustal omega, para ello debemos de descargar las secuencias adjuntadas en los links iniciales del NCBI y unirlos nuevamente en un solo archivo con el codigo presentado en la opción 1. Donde el alineamiento de ClustalW omega utiliza el metodo de Neighbour Joining (NJ), siendo esta una información que se debe tener en cuenta al momento de diseñar un arbol filogenetico o cualquier alineamiento, ya que el metodo de NJ es mucho más sensible a las variaciones entre las secuencias.

link de clustalW omega:
https://www.ebi.ac.uk/jdispatcher/msa/clustalo

Al momento que ingrese al link adjunte el archivo llamado "alineamientos.fasta" y seleccione la opción de nucleotidos. Proceda a dar clic para ejecutar el proceso del cual debera obtener el siguiente árbol filogenetico:


In [10]:
from IPython.display import Image, display

# URL de la imagen en línea
display(Image(url="file:///C:/Users/Juan%20Jose/Downloads/Captura%20de%20pantalla%202024-11-04%20181035.jpg"))

# Opción 3
Podemos llevar acabo el mismo analisis desde R para ello utilizaremos el siguiente codigo, más para ello necesitaramos el archivo de "alineamientos.aln"

In [None]:
# recuerde revisar previamente en que lugar esta trabajando
getwd()
# cambie la ubicación al entorno donde se encuentra la información
setwd("/Users/juanflorez/OneDrive/Documentos/Universidad/6 Semestre/BioinformaticaR")

In [12]:
library("msa")
library("ape")
library("Biostrings")
library("phangorn")
#debemos pasar el archivo a analizar siendo "alineamientos.aln"
#el siguiente paso es analizar el dato que tiene
#las secuencias comparadas con clustal

#calculamos la distancia con el modelo JC69
alineam = readDNAMultipleAlignment(file="alineamientos.aln", format="clustal")
 
arbol_phy_dat = as.phyDat(alineam) 

alin_dist = dist.ml(arbol_phy_dat)
alin_NJ = NJ(alin_dist)
plot(alin_NJ)



<class 'SyntaxError'>: invalid syntax (<ipython-input-12-d50fa15814c7>, line 12)

In [13]:
from IPython.display import Image, display

# URL de la imagen en línea
display(Image(url="file:///C:/Users/Juan%20Jose/Downloads/rstudio.jpg"))

# Comparación proteica
De las secuencias de ADN de telomerasa obtenidas el siguiente paso será analizar las diferencias entre las enzimas para ello se llevara un analisis in silico.

In [None]:
# traduccion de secuencias nucleotidicas
#!/usr/bin/env python3
#librerias necesarias

#importar librerias
import os
import sys

import Bio
from Bio import SeqIO
from Bio.Seq import Seq
#output para almacenar las secuencias proteicas
output_file="prot_sal.fasta"
dnaAln="alineamientos.fasta"
# abrimos el archivo output para poder escribir en este
with open(output_file, "w") as out_handle:
 for record in SeqIO.parse(dnaAln, "fasta"):
        mARN=record.seq.transcribe()
        prot=mARN.translate()
        # Escribir la secuencia proteica en el archivo de salida en formato FASTA
        out_handle.write(f">{record.id}\n{prot}\n")
