# üß¨ M√≥dulo 4: Modelado de Prote√≠nas y Docking Molecular
## Actividad 4.3: Predicci√≥n de Estructuras con AlphaFold y ESMFold

<div align="center">
  
**Universidad de Caldas - Departamento de Qu√≠mica**  
*Introducci√≥n a la Qu√≠mica Computacional (173G7G)*  
**Profesor:** Jos√© Mauricio Rodas Rodr√≠guez

[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/maurorodas/Quimica_computacional_173G7G/blob/main/modulo_04_modelado_proteinas_docking/03_alphafold_esmfold.ipynb)

</div>

---

## üéØ Objetivos de Aprendizaje

Al finalizar esta actividad, ser√°s capaz de:
- Comprender los fundamentos de AlphaFold2 y ESMFold
- Utilizar ColabFold para predicciones r√°pidas
- Interpretar m√©tricas de confianza (pLDDT, PAE)
- Usar la API de ESMFold para predicciones
- Comparar resultados de diferentes m√©todos de IA
- Identificar dominios y regiones desordenadas
- Seleccionar el m√©todo apropiado seg√∫n el caso de uso

---

## 1. AlphaFold2: Fundamentos

### Arquitectura
- **Evoformer**: Procesa alineamientos evolutivos
- **Structure Module**: Genera coordenadas 3D
- **Recycling**: Itera para refinar la predicci√≥n

### M√©tricas de Confianza
- **pLDDT**: Confianza por residuo (0-100)
  - >90: Muy alta
  - 70-90: Alta
  - 50-70: Baja
  - <50: Muy baja
- **PAE**: Error de alineamiento predicho (matriz de confianza relativa)

## 2. Uso de ColabFold

ColabFold es la forma m√°s pr√°ctica de usar AlphaFold.

### Opci√≥n A: ColabFold en Google Colab (Recomendado)

1. Visita: https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
2. Pega tu secuencia
3. Ejecuta las celdas
4. Descarga los resultados

In [None]:
# Instalaci√≥n local de ColabFold (opcional)
# !pip install colabfold[alphafold]

# Para uso local completo, se requiere:
# - GPU con suficiente memoria (>8GB)
# - Bases de datos descargadas (~2.2 TB para uso completo)
# - O usar versi√≥n sin MSA (~mucho m√°s r√°pido, menos preciso)

## 3. An√°lisis de Resultados de AlphaFold

In [None]:
!pip install biopython py3Dmol matplotlib numpy

In [None]:
import json
import matplotlib.pyplot as plt
import numpy as np
from Bio import PDB
import py3Dmol

def visualizar_plddt(pdb_file):
    """
    Visualiza la prote√≠na coloreada por pLDDT
    """
    with open(pdb_file) as f:
        pdb_data = f.read()
    
    view = py3Dmol.view(width=800, height=600)
    view.addModel(pdb_data, 'pdb')
    view.setStyle({'cartoon': {'colorscheme': 'pLDDT'}})
    view.zoomTo()
    return view

def analizar_pae(pae_json_file):
    """
    Analiza y visualiza la matriz PAE
    """
    with open(pae_json_file) as f:
        data = json.load(f)
    
    pae = np.array(data['pae'])
    
    plt.figure(figsize=(10, 8))
    plt.imshow(pae, cmap='viridis_r', vmin=0, vmax=30)
    plt.colorbar(label='PAE (√Ö)')
    plt.xlabel('Residuo')
    plt.ylabel('Residuo')
    plt.title('Predicted Aligned Error (PAE)')
    plt.show()
    
    print(f"PAE promedio: {pae.mean():.2f} √Ö")
    print(f"PAE m√≠nimo: {pae.min():.2f} √Ö")
    print(f"PAE m√°ximo: {pae.max():.2f} √Ö")

# Ejemplo de uso
# view = visualizar_plddt('resultado_alphafold.pdb')
# view.show()
# analizar_pae('resultado_pae.json')

## 4. ESMFold: Alternativa R√°pida

ESMFold es significativamente m√°s r√°pido que AlphaFold (sin necesidad de MSA).

### Ventajas:
- Muy r√°pido (~1 segundo por prote√≠na)
- No requiere b√∫squeda evolutiva
- F√°cil de ejecutar

### Desventajas:
- Ligeramente menos preciso que AlphaFold
- No genera PAE

## 5. Uso de ESMFold API

In [None]:
import requests

def predecir_con_esmfold(sequence):
    """
    Predice estructura usando ESMFold API
    """
    url = "https://api.esmatlas.com/foldSequence/v1/pdb/"
    
    response = requests.post(url, data=sequence)
    
    if response.status_code == 200:
        # Guardar estructura
        with open('esmfold_prediction.pdb', 'w') as f:
            f.write(response.text)
        print("‚úì Predicci√≥n completada con ESMFold")
        return 'esmfold_prediction.pdb'
    else:
        print(f"‚úó Error: {response.status_code}")
        return None

# Ejemplo (limitado a secuencias cortas)
# secuencia_ejemplo = "MKTAYIAKQRQISFVKSHFSRQLEER"
# pdb_file = predecir_con_esmfold(secuencia_ejemplo)

## 6. Comparaci√≥n AlphaFold vs ESMFold

In [None]:
def comparar_predicciones(alphafold_pdb, esmfold_pdb):
    """
    Compara dos predicciones mediante RMSD
    """
    parser = PDB.PDBParser(QUIET=True)
    
    struct1 = parser.get_structure('af', alphafold_pdb)
    struct2 = parser.get_structure('esm', esmfold_pdb)
    
    atoms1 = []
    atoms2 = []
    
    for model in struct1:
        for chain in model:
            for residue in chain:
                if 'CA' in residue:
                    atoms1.append(residue['CA'])
    
    for model in struct2:
        for chain in model:
            for residue in chain:
                if 'CA' in residue:
                    atoms2.append(residue['CA'])
    
    super_imposer = PDB.Superimposer()
    min_len = min(len(atoms1), len(atoms2))
    super_imposer.set_atoms(atoms1[:min_len], atoms2[:min_len])
    
    rmsd = super_imposer.rms
    
    print(f"RMSD entre AlphaFold y ESMFold: {rmsd:.3f} √Ö")
    
    if rmsd < 2.0:
        print("‚Üí Predicciones muy similares")
    elif rmsd < 5.0:
        print("‚Üí Predicciones similares")
    else:
        print("‚Üí Predicciones divergentes (revisar regiones de baja confianza)")
    
    return rmsd

# Ejemplo
# rmsd = comparar_predicciones('alphafold.pdb', 'esmfold.pdb')

## 7. Casos de Uso

### Cu√°ndo usar AlphaFold:
- Prote√≠nas con hom√≥logos conocidos
- Complejos prote√≠na-prote√≠na
- M√°xima precisi√≥n requerida
- Dominios m√∫ltiples

### Cu√°ndo usar ESMFold:
- Cribado r√°pido de muchas secuencias
- Prote√≠nas peque√±as (<400 residuos)
- Primeras aproximaciones
- Recursos computacionales limitados

## 8. Identificaci√≥n de Dominios y Regiones Desordenadas

In [None]:
def identificar_regiones_desordenadas(pdb_file, threshold=50):
    """
    Identifica regiones desordenadas bas√°ndose en pLDDT
    """
    parser = PDB.PDBParser(QUIET=True)
    structure = parser.get_structure('protein', pdb_file)
    
    regiones_desordenadas = []
    region_actual = None
    
    for model in structure:
        for chain in model:
            for residue in chain:
                if 'CA' in residue:
                    plddt = residue['CA'].bfactor
                    res_id = residue.id[1]
                    
                    if plddt < threshold:
                        if region_actual is None:
                            region_actual = [res_id, res_id]
                        else:
                            region_actual[1] = res_id
                    else:
                        if region_actual:
                            regiones_desordenadas.append(tuple(region_actual))
                            region_actual = None
    
    if region_actual:
        regiones_desordenadas.append(tuple(region_actual))
    
    print(f"Regiones potencialmente desordenadas (pLDDT < {threshold}):")
    for inicio, fin in regiones_desordenadas:
        print(f"  Residuos {inicio}-{fin} ({fin-inicio+1} residuos)")
    
    return regiones_desordenadas

# Ejemplo
# regiones = identificar_regiones_desordenadas('alphafold.pdb')

## 9. Ejercicios Pr√°cticos

### Ejercicio 1
Usa ColabFold para predecir la estructura de una prote√≠na de tu inter√©s. Analiza los valores de pLDDT y PAE.

### Ejercicio 2
Compara la predicci√≥n de AlphaFold con una estructura experimental del PDB.

### Ejercicio 3
Predice la misma prote√≠na con ESMFold y compara los resultados con AlphaFold.

In [None]:
# Espacio para ejercicios

## Referencias

1. Jumper et al. (2021). Highly accurate protein structure prediction with AlphaFold. *Nature* 596, 583‚Äì589
2. Lin et al. (2023). Evolutionary-scale prediction of atomic-level protein structure with a language model. *Science* 379, 1123-1130
3. Mirdita et al. (2022). ColabFold: making protein folding accessible to all. *Nature Methods* 19, 679‚Äì682

---

## üìö Recursos Adicionales

### Herramientas y Servidores
- [ColabFold](https://github.com/sokrypton/ColabFold)
- [AlphaFold Database](https://alphafold.ebi.ac.uk/)
- [ESMFold API](https://esmatlas.com/about)

### Documentaci√≥n
- [AlphaFold Paper (Nature 2021)](https://www.nature.com/articles/s41586-021-03819-2)
- [ESMFold Paper (Science 2023)](https://www.science.org/doi/10.1126/science.ade2574)

---

## ‚úÖ Verificaci√≥n de Aprendizaje

Al finalizar esta actividad deber√≠as ser capaz de:

- ‚úÖ Predecir estructuras con AlphaFold/ColabFold
- ‚úÖ Usar ESMFold API para predicciones r√°pidas
- ‚úÖ Interpretar valores de pLDDT y PAE
- ‚úÖ Comparar predicciones de diferentes m√©todos
- ‚úÖ Identificar regiones de baja confianza

---

<div align="center">

## üéâ ¬°Felicitaciones!

Has completado la **Actividad 4.3: Predicci√≥n con AlphaFold y ESMFold**

[![Anterior](https://img.shields.io/badge/‚¨ÖÔ∏è_Actividad_4.2-Modelado_por_Homolog√≠a-blue.svg)](02_modelado_homologia.ipynb)
[![Siguiente](https://img.shields.io/badge/Actividad_4.4_‚û°Ô∏è-Preparaci√≥n_de_Prote√≠nas-green.svg)](04_preparacion_proteinas.ipynb)

---

üìö **[Volver al M√≥dulo 4](README.md)** | üè† **[Inicio del Curso](../README.md)**

---

**Universidad de Caldas - Departamento de Qu√≠mica**  
*Qu√≠mica Computacional 173G7G*

</div>