# Ejercicios de AlphaFold y PyMOL

## Proteína Seleccionada: Cytochrome c (CYCS)

<img src="images/cytochrome_c_structure.png" width="500">

### Información General

| Propiedad | Valor |
|-----------|-------|
| **Nombre** | Cytochrome c (CYCS) |
| **UniProt ID** | P99999 |
| **PDB Experimental** | 1HRC |
| **Longitud** | 105 aminoácidos |
| **Peso Molecular** | ~12 kDa |
| **Organismo** | Homo sapiens |
| **Función** | Transferencia de electrones en cadena respiratoria |
| **Localización** | Espacio intermembrana mitocondrial |
| **Cofactor** | Grupo heme c (covalentemente unido) |

### Función Biológica

<img src="images/cytochrome_c_function.png" width="500">

**Cytochrome c** es una proteína esencial con dos funciones principales:

1. **Cadena de transporte de electrones**: Transfiere electrones entre el Complejo III y IV en la mitocondria
2. **Señalización de apoptosis**: Cuando se libera al citosol, inicia la muerte celular programada

**Características estructurales clave:**
- Grupo heme unido covalentemente a Cys14 y Cys17
- Ligandos del hierro: His18 y Met80
- Loop Ω (residuos 70-85): región flexible importante

### Recursos para Análisis

| Recurso | URL | Propósito |
|---------|-----|----------|
| **PDB Experimental** | https://files.rcsb.org/download/1HRC.pdb | Estructura de referencia |
| **AlphaFold** | https://alphafold.ebi.ac.uk/entry/AF-P99999-F1 | Predicción AlphaFold |
| **UniProt** | https://www.uniprot.org/uniprotkb/P99999 | Secuencia y anotaciones |

### Plan de Análisis AlphaFold

| Aspecto | Pregunta de Investigación |
|---------|---------------------------|
| **Precisión global** | ¿Qué RMSD tiene la predicción vs estructura experimental? |
| **Sitio activo** | ¿Predice correctamente la geometría del heme? |
| **Confianza (pLDDT)** | ¿Qué regiones tienen menor confianza? |
| **Flexibilidad** | ¿Captura la flexibilidad del loop Ω? |
| **Residuos clave** | ¿Identifica His18 y Met80 correctamente? |

---

## Bloque 1 - Descarga de secuencia desde UniProt

En este bloque se debe obtener la información fundamental de la proteína asignada, comenzando por consultar su
entrada en UniProt (https://www.uniprot.org/) mediante el identificador proporcionado en el enunciado. Tras localizar
la proteína, revisar brevemente su descripción biológica: función principal, organismo de origen, longitud de la
secuencia, familia o dominios relevantes y cualquier anotación importante incluida en la ficha. A continuación,
descargar la secuencia en formato FASTA utilizando la opción “Download → FASTA” disponible en la propia página de
UniProt. Una vez guardado el archivo verificar su contenido mostrando por pantalla la longitud total y los primeros 20
aminoácidos de la secuencia.

-----

Se ha descargado la secuencia de la proteína Cytochrome c (P99999) desde UniProt en formato FASTA mediante este enlace: https://rest.uniprot.org/uniprotkb/P99999.fasta

In [3]:
from Bio import SeqIO
import requests
import os

In [4]:
uniprot_id = "P99999"
os.makedirs("fasta", exist_ok=True)
file_path = f"fasta/{uniprot_id}.fasta"
url = f"https://rest.uniprot.org/uniprotkb/{uniprot_id}.fasta"

Hemos desarrollado el código para que, si no existe el archivo, se pueda descargar de manera automática. Esto facilita que si quieres lonar el repositorio, no tengas que preocuparte por descargar la secuencia manualmente.

In [5]:
if not os.path.exists(file_path):
    print(f"Descargando secuencia de UniProt ({uniprot_id})...")
    try:
        response = requests.get(url)
        response.raise_for_status()
        with open(file_path, "w") as f:
            f.write(response.text)
        print("Descarga exitosa.")
    except Exception as e:
        print(f"Error en la descarga: {e}")
else:
    print(f"Archivo {file_path} ya existe.")

Archivo P99999.fasta ya existe.


### Descripción biológica que obtuvimos de la búsqueda de Cytochrome c (P99999)

| Propiedad | Descripción |
| :--- | :--- |
| **Organismo** | *Homo sapiens* (Humano) |
| **Longitud** | 105 aminoácidos |
| **Peso Molecular** | ~12 kDa (Pequeña y compacta) |
| **Familia** | Cytochrome c family |

#### Es vital para...

actuar como mensajero en la mitocondria, transportando electrones entre complejos (del III al IV) para que podamos producir energía (ATP). Sin embargo, cuando la célula está dañada, el citocromo c escapa al citoplasma y activa la apoptosis, que es básicamente el proceso de muerte celular controlada.

#### Como datos curiosos...

Es sorprendente lo poco que ha cambiado esta proteína a lo largo de millones de años. Es tan parecida entre especies que podrías poner un citocromo c humano en una planta o levadura y funcionaría perfectamente, como si fuera un repuesto universal. De hecho, gracias a esta estabilidad evolutiva se usó para crear los primeros árboles genealógicos de las especies.

Su nombre significa literalmente "color celular" (*cyto* + *chroma*) porque el hierro que lleva en su interior le da un color rojo intenso, muy parecido al de la sangre. Además, es increíblemente resistente al calor y al ácido, lo que la convirtió en la "rata de laboratorio" favorita para estudiar cómo se pliegan las proteínas durante décadas.

In [6]:
record = SeqIO.read(file_path, "fasta")
    
print("=" * 60)
print(f"INFORMACIÓN DE LA SECUENCIA: {record.id}")
print("=" * 60)
print(f"Descripción: {record.description}")
print(f"Longitud: {len(record.seq)} aminoácidos")
print("-" * 60)
print(f"Primeros 20 AA: {record.seq[:20]}")
print("-" * 60)
print("Secuencia completa:")
print(record.seq)

INFORMACIÓN DE LA SECUENCIA: sp|P99999|CYC_HUMAN
Descripción: sp|P99999|CYC_HUMAN Cytochrome c OS=Homo sapiens OX=9606 GN=CYCS PE=1 SV=2
Longitud: 105 aminoácidos
------------------------------------------------------------
Primeros 20 AA: MGDVEKGKKIFIMKCSQCHT
------------------------------------------------------------
Secuencia completa:
MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGIKKKEERADLIAYLKKATNE


## Bloque 2 - Descarga del modelo AlphaFold

Acceder a la base de datos AlphaFold (https://alphafold.ebi.ac.uk/) e introducir el identificador UniProt de la proteína
para acceder a su modelo estructural predicho. Desde la página correspondiente, descarga el archivo en formato PDB
y cárgalo en Python para visualizar la estructura tridimensional utilizando py3Dmol. A continuación, comparar la
visualización con la mostrada en la propia web de AlphaFold, revisando aspectos como la forma general de la proteína
y el patrón de colores asociado a los valores de confianza (pLDDT).

In [None]:
import os
import requests
import py3Dmol

pdb_url = "https://alphafold.ebi.ac.uk/files/AF-P99999-F1-model_v6.pdb"
pdb_file = "pdb/AF-P99999-F1-model_v6.pdb"
os.makedirs("pdb", exist_ok=True)

if not os.path.exists(pdb_file):
    print(f"Descargando modelo AlphaFold ({pdb_file})...")
    try:
        response = requests.get(pdb_url)
        response.raise_for_status()
        with open(pdb_file, "w") as f:
            f.write(response.text)
        print("Descarga exitosa.")
    except Exception as e:
        print(f"Error en la descarga: {e}")
else:
    print(f"Archivo {pdb_file} ya existe.")

view = py3Dmol.view(width=800, height=600)
if os.path.exists(pdb_file):
    with open(pdb_file, 'r') as f:
        view.addModel(f.read(), 'pdb')
    
    view.setStyle({'cartoon': {'color': 'spectrum'}})
    view.zoomTo()
    view.show()
else:
    print("No se pudo cargar la estructura para visualización.")

## Bloque 3 - Extraer pLDDT del PDB

Analizar la calidad del modelo predicho por AlphaFold extrayendo los valores de pLDDT que aparecen en el archivo
PDB. Estos valores, que indican el nivel de confianza de la predicción para cada átomo, se encuentran almacenados en
la columna B-Factor de todas las líneas que comienzan por ATOM. Para ello, deberás cargar el archivo PDB en Python
y recorrer sus líneas para:

    • identificar las entradas ATOM,
    • leer el valor de pLDDT correspondiente,
    • y asignar un único valor por residuo (por ejemplo, tomando el primero o el promedio por residuo).

Una vez obtenida la serie completa de valores pLDDT, calcula dos indicadores básicos:

    • el pLDDT medio de toda la estructura,
    • y el porcentaje de residuos con pLDDT > 70, ya que estos representan las regiones predichas con mayor fiabilidad.

Estos resultados permitirán contextualizar la calidad global del modelo y serán utilizados en los bloques posteriores
de visualización y análisis.

In [None]:
# TODO: Extraer pLDDT del archivo PDB

# plddt_values = []
# with open('AF-P99999-F1-model_v4.pdb', 'r') as f:
#     for line in f:
#         if line.startswith('ATOM'):
#             plddt = float(line[60:66].strip())
#             plddt_values.append(plddt)

# print(f"pLDDT medio: {sum(plddt_values)/len(plddt_values):.2f}")
# print(f"% residuos >70: {sum(1 for p in plddt_values if p > 70)/len(plddt_values)*100:.1f}%")

## Bloque 4 - Gráfico de pLDDT por residuo

Representar gráficamente la calidad de la predicción estructural generando un gráfico lineal donde cada punto
corresponda al valor de pLDDT de un residuo. Para ello, se debe crear una figura en la que el eje X represente el índice
del residuo a lo largo de la secuencia y el eje Y el valor de pLDDT obtenido en el bloque anterior. Es recomendable
añadir una línea horizontal en pLDDT = 70, ya que este umbral permite distinguir visualmente las regiones predichas
con alta confianza de aquellas más inciertas. Una vez obtenido el gráfico, interpreta brevemente los resultados:
• identifica qué zonas presentan valores altos y, por tanto, mayor estabilidad estructural,
• señala las regiones donde los valores disminuyen, indicando posible flexibilidad o desorden.

In [None]:
# TODO: Crear gráfico de pLDDT

# import matplotlib.pyplot as plt

# plt.figure(figsize=(12, 4))
# plt.plot(plddt_values, linewidth=2)
# plt.axhline(y=70, color='r', linestyle='--', label='Umbral confianza')
# plt.xlabel('Residuo')
# plt.ylabel('pLDDT')
# plt.title('Confianza de predicción AlphaFold - Cytochrome c')
# plt.legend()
# plt.grid(alpha=0.3)
# plt.show()

## Bloque 5 - Colorear la proteína por pLDDT

Visualizar la estructura tridimensional aplicando el esquema de colores oficial de AlphaFold, que permite identificar
fácilmente las regiones más confiables del modelo. Para ello, utilizar py3Dmol para cargar el archivo PDB y asignar un
color distinto a cada residuo en función de su pLDDT:
• azul para valores muy altos
• cian para altos
• amarillo para intermedios
• naranja/rojo para baja confianza.
Esta representación facilita distinguir visualmente las zonas bien definidas de las más flexibles o inciertas. Una vez
generada la visualización en Python, compararla con la mostrada en la página de AlphaFold para tu proteína y
comprobar si ambas coinciden en la distribución de colores, es decir, si las regiones de alta y baja confianza aparecen
en las mismas posiciones.

In [None]:
# TODO: Colorear por pLDDT
# Azul (>90), Cian (70-90), Amarillo (50-70), Naranja (<50)

## Bloque 6 - Comparar con estructura experimental (1HRC)

Investigar si existe alguna estructura experimental disponible para tu proteína en bases de datos como el Protein Data
Bank (PDB). Si se encuentra un modelo experimental apropiado (relacionado con los ids mostrados en la tabla
principal), descaragrlo en formato PDB y compáralo con la predicción de AlphaFold alineando ambas estructuras a
través de los átomos Cα. Para ello, calcular el RMSD (Root Mean Square Deviation), una métrica que cuantifica la
similitud global entre las estructuras: valores bajos indican alta concordancia y, por tanto, una predicción más precisa.
Además, generar una visualización superpuesta de ambos modelos para identificar posibles diferencias locales o
regiones especialmente divergentes. En caso de que no exista ninguna estructura experimental disponible para tu
proteína, simplemente indicarlo en la memoria y continuar con los análisis posteriores.

In [None]:
# TODO: Descargar 1HRC y calcular RMSD
# URL: https://files.rcsb.org/download/1HRC.pdb

# from Bio.PDB import PDBParser, Superimposer

# parser = PDBParser()
# structure_exp = parser.get_structure('exp', '1HRC.pdb')
# structure_af = parser.get_structure('af', 'AF-P99999-F1-model_v4.pdb')

# # Alinear y calcular RMSD
# # ...

## Bloque 7 - Mapa de distancias internas CA–CA

Analizar la organización espacial de la proteína generando un mapa de distancias internas entre todos los átomos Cα
del modelo de AlphaFold. Para ello se debe extraer las coordenadas tridimensionales de cada Cα y construir una matriz
en la que cada elemento dist[i,j] represente la distancia entre los residuos i y j. Este mapa de calor permite identificar
patrones estructurales relevantes, como:
• regiones compactas, donde las distancias son pequeñas y aparece un patrón denso y continuo;
• regiones flexibles o extendidas, donde las distancias aumentan y el mapa muestra zonas más dispersas.
Una vez obtenido el mapa, interpretarlo relacionándolo con la información de confianza proporcionada por AlphaFold:
normalmente, las regiones compactas coinciden con valores altos de pLDDT, mientras que las zonas más difusas suelen
corresponder a segmentos menos confiables o potencialmente desordenados.

In [None]:
# TODO: Crear mapa de distancias

# import numpy as np
# import matplotlib.pyplot as plt

# # Extraer coordenadas CA
# # Calcular matriz de distancias
# # Visualizar con heatmap