In [None]:
pip install wget

In [None]:
import wget 
url = "ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR494/SRR494102/SRR494102.fastq.gz"
filename = wget.download(url)
print(f"\nDescargado:{filename}")

In [None]:
import gzip
import shutil

input_file = "SRR494102.fastq.gz"
output_file = "SRR494102.fastq"

with gzip.open(input_file, "rb") as f_in: 
    with open(output_file, "wb") as f_out:
        shutil.copyfileobj(f_in, f_out)

print("Archivo descomprimido correctamente")

In [None]:
from Bio import SeqIO
fq_dict = SeqIO.index("SRR494102.fastq", "fastq")

In [None]:
len(fq_dict)

In [None]:
list(fq_dict.keys())[:4]

In [None]:
fq_dict["SRR494102.20000"].seq # get 20_000th sequence

In [None]:
from Bio.Seq import Seq

# Ejemplo con una secuencia del FASTQ
secuencia_adn = fq_dict["SRR494102.20000"].seq
secuencia_arn = secuencia_adn.transcribe()  # Cambia T→U y maneja bases ambiguas

print(f"ADN: {secuencia_adn}")
print(f"ARN: {secuencia_arn}")

In [None]:
aa_names = {
    'A': 'Alanina',
    'R': 'Arginina',
    'N': 'Asparagina',
    'D': 'Ácido aspártico',
    'C': 'Cisteína',
    'E': 'Ácido glutámico',
    'Q': 'Glutamina',
    'G': 'Glicina',
    'H': 'Histidina',
    'I': 'Isoleucina',
    'L': 'Leucina',
    'K': 'Lisina',
    'M': 'Metionina',
    'F': 'Fenilalanina',
    'P': 'Prolina',
    'S': 'Serina',
    'T': 'Treonina',
    'W': 'Triptófano',
    'Y': 'Tirosina',
    'V': 'Valina',
    '*': 'Stop'  # Codón de parada
}

In [None]:
from Bio.Seq import Seq

# Ejemplo con una secuencia
secuencia_adn = Seq("AGCAACCACCATGACCACCCCTTCACCAACCACCAC")  # ADN de ejemplo
proteina = secuencia_adn.translate()  # "MVT*"

# Obtener nombres de los aminoácidos
nombres_aa = [aa_names[aa] for aa in proteina]

print("Secuencia de proteína:", proteina)
print("Nombres de aminoácidos:", ", ".join(nombres_aa))

In [None]:
from rdkit import Chem
from rdkit.Chem import Draw, AllChem
import matplotlib.pyplot as plt
import numpy as np
import warnings
warnings.filterwarnings("ignore") 

# Diccionario de SMILES CORREGIDOS para aminoácidos (formato estándar)
aa_smiles = {
    'M': 'CSCC(C(=O)O)N',  # Metionina (M) - Corregido
    'V': 'CC(C)C(C(=O)O)N',  # Valina (V) - Corregido
    'T': 'CC(O)C(C(=O)O)N',  # Treonina (T) - Corregido
}

# Secuencia de ejemplo: "MVT"
secuencia_proteina = "MVT"
mols = []
legends = []

for aa in secuencia_proteina:
    if aa in aa_smiles:
        mol = Chem.MolFromSmiles(aa_smiles[aa])
        if mol:
            AllChem.Compute2DCoords(mol)  # Asegura coordenadas 2D
            mols.append(mol)
            legends.append(f"{aa}")

# Dibujar las estructuras
if mols:
    img = Draw.MolsToGridImage(
        mols,
        molsPerRow=len(mols),  # Una fila con todos los aminoácidos
        subImgSize=(300, 300),
        legends=legends,
        returnPNG=False
    )
    
    # Mostrar con matplotlib
    plt.figure(figsize=(10, 5))
    plt.imshow(img)
    plt.axis('off')
    plt.title("Estructuras de Aminoácidos en la Secuencia 'MVT'")
    plt.show()
else:
    print("No se pudieron generar las estructuras. Revisa los SMILES.")