# PRÁCTICA 2: FICHEROS

## Ejercicio 1

#### Escribe un programa que tome un fichero FASTA con varias secuencias de ADN y calcule el contenido de GC en porcentaje de cada una y lo muestre por pantalla.

#### A continuación produzca las cadenas de aminoácidos asociadas a cada secuencia de ADN.

#### Por último, escriba estas secuencias de aminoácidos en un archivo FASTA utilizando como identificadores y descripciones las originales del archivo.


In [60]:
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord
import warnings
warnings.filterwarnings("ignore")

in_fasta = "input/dna_seqs.fasta"
out_fasta = "output/proteins.fasta"

protein_records = []

registros = SeqIO.parse(in_fasta, "fasta")

try:
    while True:
        registro_secuencia = next(registros)
        print(f"\nID: {registro_secuencia.id}")

        seq = registro_secuencia.seq.upper()
        total = len(seq)
        count_GC = seq.count("G") + seq.count("C")
        porcentaje_GC = (count_GC / total) * 100 if total > 0 else 0

        protein_seq = registro_secuencia.seq.translate(table=1, to_stop=True)

        print(f"Cadena de aminoácidos: {protein_seq}")
        print(f"Longitud: {total}")
        print(f"GC count: {count_GC}")
        print(f"GC%: {porcentaje_GC:.2f}")

        prot_record = SeqRecord(
            protein_seq,
            id=registro_secuencia.id,
            description=registro_secuencia.description
        )
        protein_records.append(prot_record)

except StopIteration:
    print("\nNo hay más secuencias en el fichero")

SeqIO.write(protein_records, out_fasta, "fasta")
print(f"\nSe escribieron {len(protein_records)} secuencias de proteínas en {out_fasta}")



ID: seq1_human
Cadena de aminoácidos: MEVGNAEDLQQWWC
Longitud: 52
GC count: 26
GC%: 50.00

ID: seq2_mouse
Cadena de aminoácidos: MEESQSDISRAHSSSAQ
Longitud: 52
GC count: 30
GC%: 57.69

ID: seq3_bacteria
Cadena de aminoácidos: MTNGELLAVKVVIPALP
Longitud: 52
GC count: 29
GC%: 55.77

No hay más secuencias en el fichero

Se escribieron 3 secuencias de proteínas en output/proteins.fasta


# Ejercicio 2

In [61]:
print("Se han tomado como proteínas las siguientes:")
print("- Oxitocina: hormona relacionada con el afecto, el parto y la lactancia.")
print("- Colágeno: proteína estructural que da soporte y resistencia a tejidos.")
print("- Queratina: proteína fibrosa que forma parte del cabello, uñas y piel.\n")

Se han tomado como proteínas las siguientes:
- Oxitocina: hormona relacionada con el afecto, el parto y la lactancia.
- Colágeno: proteína estructural que da soporte y resistencia a tejidos.
- Queratina: proteína fibrosa que forma parte del cabello, uñas y piel.



### Se han tomado las siguientes proteínas:


### Oxitocina
##### Hormona relacionada con el afecto, el parto y la lactancia. También desempeña un papel esencial en la formación de vínculos sociales, la confianza y ciertas respuestas emocionales.

### Colágeno
##### Proteína estructural que aporta soporte, elasticidad y resistencia a tejidos como la piel, los huesos, los tendones y los cartílagos. Es la proteína más abundante del cuerpo humano y un componente clave de la matriz extracelular.

### Queratina
##### Proteína fibrosa altamente resistente que forma el cabello, las uñas, la piel y diversas estructuras protectoras. Su notable dureza y estabilidad se deben, en gran parte, a la presencia de numerosos puentes disulfuro en su estructura.

---

### Visualización de estructuras proteicas

#### Ampliación del ejercicio

Hemos querido llevar este ejercicio un paso más allá y, tras realizar una breve investigación, nos pareció interesante mostrar visualmente la estructura tridimensional de algunas proteínas relevantes.

#### Descarga y uso de archivos PDB

Para ello descargamos los archivos **PDB** correspondientes a cada proteína y utilizamos un código en Python para generar su visualización 3D mediante la librería `py3Dmol`.

#### ¿Qué es un archivo PDB?

Los archivos **PDB (Protein Data Bank)** contienen la estructura atómica real de proteínas y otras macromoléculas, obtenida mediante técnicas experimentales como:

- cristalografía de rayos X,  
- resonancia magnética nuclear (RMN),  
- criomicroscopía electrónica (cryo-EM).


In [64]:
import py3Dmol

def show_cif(path, title="", style="cartoon"):
    with open(path, "r") as f:
        cif_data = f.read()

    view = py3Dmol.view(width=500, height=450)
    view.addModel(cif_data, "cif")

    if style == "cartoon":
        view.setStyle({"cartoon": {"color": "spectrum"}})
    elif style == "stick":
        view.setStyle({"stick": {}})
    elif style == "sphere":
        view.setStyle({"sphere": {}})
    else:
        view.setStyle({style: {}})

    view.setBackgroundColor("white")
    view.zoomTo()

    if title:
        view.addLabel(
            title,
            {
                "fontSize": 16,
                "fontColor": "black",
                "backgroundOpacity": 0.3
            }
        )

    return view

In [65]:
view_oxytocin = show_cif(
    "PDB/1NPO.cif",
    title="Oxitocina (PDB: 1NPO)",
    style="stick"
)
view_oxytocin.show()

In [66]:
view_collagen = show_cif(
    "PDB/1CAG.cif",
    title="Colágeno (PDB: 1CAG)",
    style="cartoon"
)
view_collagen.show()

In [67]:
view_keratin = show_cif(
    "PDB/4ZRY.cif",
    title="Queratina (PDB: 4ZRY)",
    style="cartoon"
)
view_keratin.show()