# üß¨ M√≥dulo 2: Representaci√≥n y Visualizaci√≥n Molecular
## Actividad 2.6: Descriptores Moleculares y Propiedades Calculadas

<div align="center">
  
**Universidad de Caldas - Departamento de Qu√≠mica**  
*Introducci√≥n a la Qu√≠mica Computacional (173G7G)*  
**Profesor:** Jos√© Mauricio Rodas Rodr√≠guez

[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/maurorodas/Quimica_computacional_173G7G/blob/main/modulo_02_representacion_molecular/06_descriptores.ipynb)

</div>

---

## üéØ Objetivos de Aprendizaje

Al finalizar esta actividad, ser√°s capaz de:
- Comprender qu√© son los descriptores moleculares y su importancia
- Calcular descriptores 2D (topol√≥gicos, estructurales, electr√≥nicos)
- Calcular descriptores 3D (geom√©tricos, superficiales, volum√©tricos)
- Generar y comparar fingerprints moleculares
- Estimar propiedades fisicoqu√≠micas (logP, solubilidad, permeabilidad)
- Aplicar descriptores en an√°lisis QSAR/QSPR
- Realizar an√°lisis de similitud molecular
- Visualizar y correlacionar descriptores con actividad biol√≥gica

---

## 1. Instalaci√≥n de Dependencias

In [None]:
# Instalaci√≥n en Google Colab
import sys
if 'google.colab' in sys.modules:
    !pip install rdkit pandas matplotlib seaborn scikit-learn -q

print("‚úì Dependencias instaladas")

In [None]:
# Importar librer√≠as necesarias
from rdkit import Chem
from rdkit.Chem import AllChem, Descriptors, Crippen, Lipinski, QED
from rdkit.Chem import rdMolDescriptors, rdPartialCharges
from rdkit.Chem import Draw, DataStructs
from rdkit.ML.Descriptors import MoleculeDescriptors

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úì Librer√≠as importadas correctamente")

## 2. Conceptos Fundamentales

### ¬øQu√© son los Descriptores Moleculares?

Los **descriptores moleculares** son valores num√©ricos que codifican informaci√≥n estructural, electr√≥nica y topol√≥gica de una mol√©cula. Son fundamentales en:

- **QSAR/QSPR**: Relaciones cuantitativas estructura-actividad/propiedad
- **Virtual Screening**: B√∫squeda de candidatos a f√°rmacos
- **Predicci√≥n de propiedades**: Solubilidad, toxicidad, permeabilidad
- **Similitud molecular**: Comparaci√≥n y agrupamiento de compuestos

### Clasificaci√≥n de Descriptores

#### 1. **Descriptores 0D**: Composici√≥n elemental
- F√≥rmula molecular
- Peso molecular
- Conteo de √°tomos por tipo

#### 2. **Descriptores 1D**: Fragmentos y grupos funcionales
- Grupos funcionales
- Fragmentos estructurales

#### 3. **Descriptores 2D**: Topolog√≠a molecular
- √çndices topol√≥gicos (Wiener, Zagreb, Balaban)
- Conectividad molecular
- Conteo de enlaces rotables
- Fingerprints moleculares

#### 4. **Descriptores 3D**: Geometr√≠a tridimensional
- Volumen molecular (Van der Waals)
- Superficie accesible al solvente (SASA)
- Momentos dipolares
- Descriptores de forma (PMI, asphericity)

## 3. Descriptores 2D (No dependen de conformaci√≥n 3D)

### 3.1 Descriptores B√°sicos y Propiedades Fisicoqu√≠micas

In [None]:
def calcular_descriptores_basicos(smiles, nombre="Mol√©cula"):
    """
    Calcula descriptores moleculares b√°sicos y propiedades fisicoqu√≠micas
    """
    mol = Chem.MolFromSmiles(smiles)
    
    if mol is None:
        print(f"Error: No se pudo procesar el SMILES {smiles}")
        return None
    
    descriptores = {
        'Nombre': nombre,
        'SMILES': smiles,
        
        # Descriptores 0D - Composici√≥n
        'F√≥rmula': rdMolDescriptors.CalcMolFormula(mol),
        'Peso Molecular': Descriptors.MolWt(mol),
        'Peso Molecular Exacto': Descriptors.ExactMolWt(mol),
        
        # Descriptores 1D/2D - Estructura
        'Num √Åtomos Pesados': Descriptors.HeavyAtomCount(mol),
        'Num √Åtomos Total': mol.GetNumAtoms(),
        'Num Enlaces': mol.GetNumBonds(),
        'Num Arom√°ticos': Descriptors.NumAromaticRings(mol),
        'Num Anillos': Descriptors.RingCount(mol),
        'Num Enlaces Rotables': Descriptors.NumRotatableBonds(mol),
        
        # Propiedades Lipinski (Regla de los 5)
        'HBD (Donors)': Descriptors.NumHDonors(mol),
        'HBA (Acceptors)': Descriptors.NumHAcceptors(mol),
        'LogP': Descriptors.MolLogP(mol),
        'TPSA': Descriptors.TPSA(mol),  # √Årea superficial polar topol√≥gica
        
        # Complejidad molecular
        'Complejidad': Descriptors.BertzCT(mol),
        'Sp3 Fraction': Descriptors.FractionCsp3(mol),
        
        # Carga y electr√≥nica (estimadas)
        'Carga Formal': Chem.GetFormalCharge(mol),
    }
    
    return descriptores

# Ejemplo con varios f√°rmacos conocidos
farmacos = [
    ('Aspirina', 'CC(=O)Oc1ccccc1C(=O)O'),
    ('Ibuprofeno', 'CC(C)Cc1ccc(cc1)C(C)C(=O)O'),
    ('Paracetamol', 'CC(=O)Nc1ccc(O)cc1'),
    ('Cafe√≠na', 'CN1C=NC2=C1C(=O)N(C(=O)N2C)C'),
]

# Calcular descriptores para cada f√°rmaco
resultados = []
for nombre, smiles in farmacos:
    desc = calcular_descriptores_basicos(smiles, nombre)
    if desc:
        resultados.append(desc)

# Crear DataFrame
df_descriptores = pd.DataFrame(resultados)
df_descriptores

In [None]:
# Visualizar mol√©culas
mols = [Chem.MolFromSmiles(smiles) for _, smiles in farmacos]
legends = [nombre for nombre, _ in farmacos]
img = Draw.MolsToGridImage(mols, molsPerRow=4, subImgSize=(250, 250), 
                           legends=legends, returnPNG=False)
display(img)

### 3.2 Regla de los 5 de Lipinski (Drug-likeness)

La **Regla de Lipinski** establece criterios para determinar si una mol√©cula tiene propiedades similares a un f√°rmaco oral:

1. **Peso molecular ‚â§ 500 Da**
2. **LogP ‚â§ 5** (lipofilia moderada)
3. **Donadores H ‚â§ 5** (HBD)
4. **Aceptores H ‚â§ 10** (HBA)
5. **Violaciones ‚â§ 1** (se permite una violaci√≥n)

In [None]:
def evaluar_lipinski(mol):
    """
    Eval√∫a la Regla de los 5 de Lipinski
    """
    MW = Descriptors.MolWt(mol)
    LogP = Descriptors.MolLogP(mol)
    HBD = Descriptors.NumHDonors(mol)
    HBA = Descriptors.NumHAcceptors(mol)
    
    violaciones = 0
    detalles = []
    
    if MW > 500:
        violaciones += 1
        detalles.append(f"MW = {MW:.1f} > 500")
    
    if LogP > 5:
        violaciones += 1
        detalles.append(f"LogP = {LogP:.1f} > 5")
    
    if HBD > 5:
        violaciones += 1
        detalles.append(f"HBD = {HBD} > 5")
    
    if HBA > 10:
        violaciones += 1
        detalles.append(f"HBA = {HBA} > 10")
    
    cumple = violaciones <= 1
    
    return {
        'MW': MW,
        'LogP': LogP,
        'HBD': HBD,
        'HBA': HBA,
        'Violaciones': violaciones,
        'Cumple': cumple,
        'Detalles': ' | '.join(detalles) if detalles else 'Cumple todas'
    }

# Evaluar f√°rmacos
print("Evaluaci√≥n de la Regla de Lipinski:\n")
print(f"{'F√°rmaco':<15} {'MW':<8} {'LogP':<8} {'HBD':<6} {'HBA':<6} {'Viol.':<7} {'Cumple':<10}")
print("="*70)

for nombre, smiles in farmacos:
    mol = Chem.MolFromSmiles(smiles)
    resultado = evaluar_lipinski(mol)
    cumple_str = "‚úì S√≠" if resultado['Cumple'] else "‚úó No"
    print(f"{nombre:<15} {resultado['MW']:<8.1f} {resultado['LogP']:<8.2f} "
          f"{resultado['HBD']:<6} {resultado['HBA']:<6} {resultado['Violaciones']:<7} {cumple_str:<10}")
    if resultado['Detalles'] != 'Cumple todas':
        print(f"  ‚Üí {resultado['Detalles']}")

### 3.3 Descriptores Topol√≥gicos Avanzados

In [None]:
def calcular_descriptores_topologicos(mol):
    """
    Calcula descriptores topol√≥gicos avanzados
    """
    descriptores = {
        # √çndices de conectividad
        'Chi0v': Descriptors.Chi0v(mol),
        'Chi1v': Descriptors.Chi1v(mol),
        'Chi2v': Descriptors.Chi2v(mol),
        'Chi3v': Descriptors.Chi3v(mol),
        'Chi4v': Descriptors.Chi4v(mol),
        
        # √çndices de Kappa (forma molecular)
        'Kappa1': Descriptors.Kappa1(mol),
        'Kappa2': Descriptors.Kappa2(mol),
        'Kappa3': Descriptors.Kappa3(mol),
        
        # √çndice de Balaban (conectividad promedio)
        'BalabanJ': Descriptors.BalabanJ(mol),
        
        # √çndice de Wiener (suma de distancias)
        'Wiener': Chem.GraphDescriptors.Ipc(mol),
        
        # Complejidad molecular
        'BertzCT': Descriptors.BertzCT(mol),
        
        # √çndice de Lipinski
        'Lipinski': Descriptors.NumHDonors(mol) + Descriptors.NumHAcceptors(mol),
    }
    
    return descriptores

# Calcular para los f√°rmacos
print("Descriptores Topol√≥gicos:\n")
topo_data = []

for nombre, smiles in farmacos:
    mol = Chem.MolFromSmiles(smiles)
    desc_topo = calcular_descriptores_topologicos(mol)
    desc_topo['Nombre'] = nombre
    topo_data.append(desc_topo)

df_topo = pd.DataFrame(topo_data)
cols = ['Nombre'] + [col for col in df_topo.columns if col != 'Nombre']
df_topo = df_topo[cols]
df_topo

### 3.4 Fingerprints Moleculares

Los **fingerprints** son representaciones binarias de la estructura molecular, √∫tiles para comparar similitud.

In [None]:
def generar_fingerprints(mol, tipo='Morgan', radio=2, nbits=2048):
    """
    Genera diferentes tipos de fingerprints moleculares
    
    Tipos disponibles:
    - 'Morgan': Circular fingerprint (ECFP)
    - 'MACCS': MACCS keys (166 bits)
    - 'RDKit': RDKit fingerprint
    - 'AtomPair': Atom-pair fingerprint
    - 'TopologicalTorsion': Torsion fingerprint
    """
    if tipo == 'Morgan':
        fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius=radio, nBits=nbits)
    elif tipo == 'MACCS':
        fp = AllChem.GetMACCSKeysFingerprint(mol)
    elif tipo == 'RDKit':
        fp = Chem.RDKFingerprint(mol, maxPath=7, fpSize=nbits)
    elif tipo == 'AtomPair':
        fp = AllChem.GetHashedAtomPairFingerprintAsBitVect(mol, nBits=nbits)
    elif tipo == 'TopologicalTorsion':
        fp = AllChem.GetHashedTopologicalTorsionFingerprintAsBitVect(mol, nBits=nbits)
    else:
        raise ValueError(f"Tipo de fingerprint '{tipo}' no reconocido")
    
    return fp

def calcular_similitud(mol1, mol2, tipo='Morgan', metrica='Tanimoto'):
    """
    Calcula la similitud entre dos mol√©culas usando fingerprints
    
    M√©tricas disponibles:
    - 'Tanimoto': Coeficiente de Tanimoto (Jaccard)
    - 'Dice': Coeficiente de Dice
    - 'Cosine': Similitud coseno
    """
    fp1 = generar_fingerprints(mol1, tipo=tipo)
    fp2 = generar_fingerprints(mol2, tipo=tipo)
    
    if metrica == 'Tanimoto':
        sim = DataStructs.TanimotoSimilarity(fp1, fp2)
    elif metrica == 'Dice':
        sim = DataStructs.DiceSimilarity(fp1, fp2)
    elif metrica == 'Cosine':
        sim = DataStructs.CosineSimilarity(fp1, fp2)
    else:
        raise ValueError(f"M√©trica '{metrica}' no reconocida")
    
    return sim

# Calcular matriz de similitud
print("Matriz de Similitud (Tanimoto con Morgan Fingerprints):\n")

nombres = [nombre for nombre, _ in farmacos]
mols = [Chem.MolFromSmiles(smiles) for _, smiles in farmacos]
n = len(mols)

# Crear matriz de similitud
matriz_sim = np.zeros((n, n))
for i in range(n):
    for j in range(n):
        matriz_sim[i, j] = calcular_similitud(mols[i], mols[j], tipo='Morgan')

# Mostrar como DataFrame
df_sim = pd.DataFrame(matriz_sim, index=nombres, columns=nombres)
df_sim

In [None]:
# Visualizar matriz de similitud como heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(df_sim, annot=True, fmt='.3f', cmap='YlOrRd', 
            square=True, cbar_kws={'label': 'Similitud de Tanimoto'})
plt.title('Matriz de Similitud Molecular\n(Morgan Fingerprints, radio=2)', 
          fontsize=14, fontweight='bold', pad=15)
plt.xlabel('F√°rmacos', fontsize=12)
plt.ylabel('F√°rmacos', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

## 4. Descriptores 3D (Dependen de conformaci√≥n)

In [None]:
def calcular_descriptores_3d(mol):
    """
    Calcula descriptores 3D que requieren coordenadas espaciales
    
    Nota: La mol√©cula debe tener una conformaci√≥n 3D embebida
    """
    # Verificar si tiene conformaci√≥n 3D
    if mol.GetNumConformers() == 0:
        # Generar conformaci√≥n 3D
        mol = Chem.AddHs(mol)
        AllChem.EmbedMolecule(mol, randomSeed=42)
        AllChem.MMFFOptimizeMolecule(mol)
    
    descriptores = {
        # Momentos de inercia principales (PMI)
        'PMI1': Descriptors.PMI1(mol),
        'PMI2': Descriptors.PMI2(mol),
        'PMI3': Descriptors.PMI3(mol),
        
        # Ratios de PMI (forma molecular)
        'NPR1': Descriptors.NPR1(mol),  # Normalized PMI ratio 1
        'NPR2': Descriptors.NPR2(mol),  # Normalized PMI ratio 2
        
        # Radio de giro (compacidad)
        'RadiusOfGyration': Descriptors.RadiusOfGyration(mol),
        
        # Asphericity (desviaci√≥n de forma esf√©rica)
        'Asphericity': Descriptors.Asphericity(mol),
        
        # Eccentricity (elongaci√≥n)
        'Eccentricity': Descriptors.Eccentricity(mol),
        
        # InertialShapeFactor
        'InertialShapeFactor': Descriptors.InertialShapeFactor(mol),
        
        # SpherocityIndex
        'SpherocityIndex': Descriptors.SpherocityIndex(mol),
    }
    
    return descriptores

# Calcular descriptores 3D para los f√°rmacos
print("Descriptores 3D:\n")
desc_3d_data = []

for nombre, smiles in farmacos:
    mol = Chem.MolFromSmiles(smiles)
    desc_3d = calcular_descriptores_3d(mol)
    desc_3d['Nombre'] = nombre
    desc_3d_data.append(desc_3d)

df_3d = pd.DataFrame(desc_3d_data)
cols = ['Nombre'] + [col for col in df_3d.columns if col != 'Nombre']
df_3d = df_3d[cols]
df_3d

### 4.1 Interpretaci√≥n de Descriptores 3D

**Momentos de Inercia (PMI)**:
- Describen la distribuci√≥n de masa en el espacio 3D
- PMI1 ‚â§ PMI2 ‚â§ PMI3

**NPR1 y NPR2** (Normalized PMI Ratios):
- **Rod-like**: NPR1 ‚âà 0, NPR2 ‚âà 0.5 (lineal)
- **Disc-like**: NPR1 ‚âà 0.5, NPR2 ‚âà 0.5 (plana)
- **Sphere-like**: NPR1 ‚âà 1, NPR2 ‚âà 1 (esf√©rica)

**Asphericity**: 
- 0 = perfectamente esf√©rica
- Valores altos = elongada/aplanada

**Eccentricity**:
- Mide la elongaci√≥n molecular

In [None]:
# Visualizar forma molecular en diagrama PMI
plt.figure(figsize=(10, 8))

# Tri√°ngulo PMI
# V√©rtices: Rod (0, 0.5), Disc (0.5, 0.5), Sphere (1, 1)
triangle = np.array([[0, 0.5], [0.5, 0.5], [1, 1], [0, 0.5]])
plt.plot(triangle[:, 0], triangle[:, 1], 'k--', linewidth=2, alpha=0.3)

# Graficar mol√©culas
for _, row in df_3d.iterrows():
    plt.scatter(row['NPR1'], row['NPR2'], s=200, alpha=0.7, edgecolors='black', linewidth=2)
    plt.annotate(row['Nombre'], (row['NPR1'], row['NPR2']), 
                xytext=(5, 5), textcoords='offset points', fontsize=11, fontweight='bold')

# Etiquetas de formas
plt.text(0, 0.5, 'Rod\n(Lineal)', ha='right', va='center', fontsize=10, 
         bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.5))
plt.text(0.5, 0.5, 'Disc\n(Plana)', ha='center', va='bottom', fontsize=10,
         bbox=dict(boxstyle='round', facecolor='lightgreen', alpha=0.5))
plt.text(1, 1, 'Sphere\n(Esf√©rica)', ha='left', va='center', fontsize=10,
         bbox=dict(boxstyle='round', facecolor='lightyellow', alpha=0.5))

plt.xlabel('NPR1 (I‚ÇÅ/I‚ÇÉ)', fontsize=12, fontweight='bold')
plt.ylabel('NPR2 (I‚ÇÇ/I‚ÇÉ)', fontsize=12, fontweight='bold')
plt.title('Diagrama de Forma Molecular (PMI)\nDistribuci√≥n Rod-Disc-Sphere', 
          fontsize=14, fontweight='bold', pad=15)
plt.xlim(-0.1, 1.1)
plt.ylim(0.4, 1.1)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 5. C√°lculo Masivo de Descriptores

RDKit proporciona m√°s de **200 descriptores** predefinidos. Podemos calcularlos todos simult√°neamente.

In [None]:
def calcular_todos_descriptores(smiles_list, nombres):
    """
    Calcula todos los descriptores disponibles en RDKit
    """
    # Obtener lista de todos los descriptores
    desc_names = [desc[0] for desc in Descriptors.descList]
    calc = MoleculeDescriptors.MolecularDescriptorCalculator(desc_names)
    
    data = []
    for nombre, smiles in zip(nombres, smiles_list):
        mol = Chem.MolFromSmiles(smiles)
        if mol:
            # Calcular todos los descriptores
            desc_vals = calc.CalcDescriptors(mol)
            row = {'Nombre': nombre, 'SMILES': smiles}
            row.update(dict(zip(desc_names, desc_vals)))
            data.append(row)
    
    return pd.DataFrame(data)

# Calcular todos los descriptores
nombres = [nombre for nombre, _ in farmacos]
smiles_list = [smiles for _, smiles in farmacos]

df_completo = calcular_todos_descriptores(smiles_list, nombres)

print(f"Total de descriptores calculados: {len(df_completo.columns) - 2}")
print(f"\nPrimeras 10 columnas:")
df_completo.iloc[:, :10]

In [None]:
# Seleccionar descriptores m√°s relevantes para an√°lisis
descriptores_clave = ['Nombre', 'MolWt', 'MolLogP', 'NumHDonors', 'NumHAcceptors', 
                      'TPSA', 'NumRotatableBonds', 'NumAromaticRings', 
                      'FractionCsp3', 'BertzCT', 'Chi0v', 'Kappa1']

df_seleccionado = df_completo[descriptores_clave]
print("Descriptores Clave Seleccionados:\n")
df_seleccionado

## 6. An√°lisis de Componentes Principales (PCA)

In [None]:
# Preparar datos para PCA (eliminar columnas no num√©ricas)
X = df_completo.drop(['Nombre', 'SMILES'], axis=1)

# Eliminar descriptores con valores NaN o infinitos
X = X.replace([np.inf, -np.inf], np.nan)
X = X.fillna(X.mean())

# Estandarizar datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicar PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Crear DataFrame con resultados
df_pca = pd.DataFrame({
    'Nombre': nombres,
    'PC1': X_pca[:, 0],
    'PC2': X_pca[:, 1]
})

print(f"Varianza explicada por PC1: {pca.explained_variance_ratio_[0]:.2%}")
print(f"Varianza explicada por PC2: {pca.explained_variance_ratio_[1]:.2%}")
print(f"Varianza total explicada: {pca.explained_variance_ratio_.sum():.2%}")

df_pca

In [None]:
# Visualizar PCA
plt.figure(figsize=(10, 7))

plt.scatter(df_pca['PC1'], df_pca['PC2'], s=300, alpha=0.6, 
           c=range(len(df_pca)), cmap='viridis', edgecolors='black', linewidth=2)

for _, row in df_pca.iterrows():
    plt.annotate(row['Nombre'], (row['PC1'], row['PC2']), 
                xytext=(8, 8), textcoords='offset points', 
                fontsize=12, fontweight='bold',
                bbox=dict(boxstyle='round,pad=0.5', facecolor='white', alpha=0.7))

plt.axhline(0, color='gray', linestyle='--', linewidth=1, alpha=0.5)
plt.axvline(0, color='gray', linestyle='--', linewidth=1, alpha=0.5)

plt.xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.1%} varianza)', 
          fontsize=12, fontweight='bold')
plt.ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.1%} varianza)', 
          fontsize=12, fontweight='bold')
plt.title('An√°lisis de Componentes Principales (PCA)\nEspacio de Descriptores Moleculares', 
         fontsize=14, fontweight='bold', pad=15)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 7. Propiedades Fisicoqu√≠micas Estimadas

### 7.1 Coeficiente de Partici√≥n (LogP)

El **LogP** mide la lipofilia (afinidad por l√≠pidos vs agua):
- LogP < 0: Hidr√≥fila
- LogP > 0: Lip√≥fila
- √ìptimo para f√°rmacos: 1-3

In [None]:
def calcular_propiedades_fisicoquimicas(mol):
    """
    Calcula propiedades fisicoqu√≠micas relevantes para f√°rmacos
    """
    return {
        'LogP (Wildman-Crippen)': Descriptors.MolLogP(mol),
        'MR (Refracci√≥n Molar)': Descriptors.MolMR(mol),
        'TPSA (√Ö¬≤)': Descriptors.TPSA(mol),
        'LabuteASA': Descriptors.LabuteASA(mol),
        'Carga Parcial (+)': sum(abs(a.GetDoubleProp('_GasteigerCharge')) 
                                 for a in mol.GetAtoms() 
                                 if a.HasProp('_GasteigerCharge') 
                                 and a.GetDoubleProp('_GasteigerCharge') > 0),
    }

# Calcular para los f√°rmacos
print("Propiedades Fisicoqu√≠micas:\n")
prop_data = []

for nombre, smiles in farmacos:
    mol = Chem.MolFromSmiles(smiles)
    AllChem.ComputeGasteigerCharges(mol)  # Calcular cargas parciales
    props = calcular_propiedades_fisicoquimicas(mol)
    props['Nombre'] = nombre
    prop_data.append(props)

df_props = pd.DataFrame(prop_data)
cols = ['Nombre'] + [col for col in df_props.columns if col != 'Nombre']
df_props = df_props[cols]
df_props

### 7.2 Estimaci√≥n de Solubilidad y QED

**QED** (Quantitative Estimate of Drug-likeness): Puntuaci√≥n 0-1 que mide qu√© tan similar es una mol√©cula a un f√°rmaco.

In [None]:
def calcular_qed_druglikeness(mol):
    """
    Calcula el QED (Quantitative Estimate of Drug-likeness)
    """
    qed_score = QED.qed(mol)
    
    # Interpretaci√≥n
    if qed_score >= 0.7:
        categoria = "Excelente"
    elif qed_score >= 0.5:
        categoria = "Bueno"
    elif qed_score >= 0.3:
        categoria = "Moderado"
    else:
        categoria = "Pobre"
    
    return qed_score, categoria

# Calcular QED
print("Drug-likeness Score (QED):\n")
print(f"{'F√°rmaco':<15} {'QED Score':<12} {'Categor√≠a':<15}")
print("="*45)

qed_data = []
for nombre, smiles in farmacos:
    mol = Chem.MolFromSmiles(smiles)
    qed_score, categoria = calcular_qed_druglikeness(mol)
    print(f"{nombre:<15} {qed_score:<12.3f} {categoria:<15}")
    qed_data.append({'Nombre': nombre, 'QED': qed_score, 'Categor√≠a': categoria})

df_qed = pd.DataFrame(qed_data)

In [None]:
# Visualizar QED scores
plt.figure(figsize=(10, 6))

colors = ['green' if q >= 0.7 else 'orange' if q >= 0.5 else 'red' 
         for q in df_qed['QED']]

bars = plt.bar(df_qed['Nombre'], df_qed['QED'], color=colors, 
              alpha=0.7, edgecolor='black', linewidth=2)

# L√≠neas de referencia
plt.axhline(0.7, color='green', linestyle='--', linewidth=2, 
           alpha=0.5, label='Excelente (‚â•0.7)')
plt.axhline(0.5, color='orange', linestyle='--', linewidth=2, 
           alpha=0.5, label='Bueno (‚â•0.5)')
plt.axhline(0.3, color='red', linestyle='--', linewidth=2, 
           alpha=0.5, label='Moderado (‚â•0.3)')

# A√±adir valores sobre las barras
for bar, qed in zip(bars, df_qed['QED']):
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height + 0.02,
            f'{qed:.3f}', ha='center', va='bottom', fontweight='bold', fontsize=11)

plt.ylabel('QED Score', fontsize=12, fontweight='bold')
plt.xlabel('F√°rmaco', fontsize=12, fontweight='bold')
plt.title('Quantitative Estimate of Drug-likeness (QED)\nPuntuaci√≥n de Similitud a F√°rmacos', 
         fontsize=14, fontweight='bold', pad=15)
plt.ylim(0, 1.1)
plt.legend(loc='lower right', fontsize=10)
plt.xticks(rotation=45, ha='right')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 8. Aplicaci√≥n: Mini-An√°lisis QSAR

In [None]:
# Conjunto de datos ejemplo: Actividad antiinflamatoria (IC50, ŒºM)
# Valores ficticios para demostraci√≥n
actividad_biologica = {
    'Aspirina': 150.0,
    'Ibuprofeno': 8.5,
    'Paracetamol': 220.0,
    'Cafe√≠na': 450.0,
}

# Convertir a pIC50 (log-transform para linearizar)
# pIC50 = -log10(IC50 en M)
df_qsar = df_seleccionado.copy()
df_qsar['IC50 (ŒºM)'] = df_qsar['Nombre'].map(actividad_biologica)
df_qsar['pIC50'] = -np.log10(df_qsar['IC50 (ŒºM)'] * 1e-6)

print("Dataset QSAR:\n")
df_qsar[['Nombre', 'IC50 (ŒºM)', 'pIC50', 'MolWt', 'MolLogP', 'TPSA']]

In [None]:
# Correlaciones entre descriptores y actividad
descriptores_num = ['MolWt', 'MolLogP', 'NumHDonors', 'NumHAcceptors', 
                    'TPSA', 'NumRotatableBonds']

correlaciones = []
for desc in descriptores_num:
    corr = df_qsar[[desc, 'pIC50']].corr().iloc[0, 1]
    correlaciones.append({'Descriptor': desc, 'Correlaci√≥n': corr})

df_corr = pd.DataFrame(correlaciones).sort_values('Correlaci√≥n', 
                                                  key=abs, ascending=False)

print("\nCorrelaciones con Actividad Biol√≥gica (pIC50):\n")
print(df_corr.to_string(index=False))

In [None]:
# Gr√°ficos de correlaci√≥n
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.flatten()

for i, desc in enumerate(descriptores_num):
    ax = axes[i]
    
    # Scatter plot
    ax.scatter(df_qsar[desc], df_qsar['pIC50'], s=150, alpha=0.6, 
              edgecolors='black', linewidth=2)
    
    # A√±adir nombres
    for _, row in df_qsar.iterrows():
        ax.annotate(row['Nombre'][:3], (row[desc], row['pIC50']), 
                   xytext=(5, 5), textcoords='offset points', fontsize=9)
    
    # L√≠nea de tendencia
    z = np.polyfit(df_qsar[desc], df_qsar['pIC50'], 1)
    p = np.poly1d(z)
    x_line = np.linspace(df_qsar[desc].min(), df_qsar[desc].max(), 100)
    ax.plot(x_line, p(x_line), 'r--', alpha=0.7, linewidth=2)
    
    # Correlaci√≥n
    corr = df_qsar[[desc, 'pIC50']].corr().iloc[0, 1]
    ax.text(0.05, 0.95, f'r = {corr:.3f}', transform=ax.transAxes, 
           fontsize=11, fontweight='bold', va='top',
           bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))
    
    ax.set_xlabel(desc, fontsize=11, fontweight='bold')
    ax.set_ylabel('pIC50 (Actividad)', fontsize=11, fontweight='bold')
    ax.grid(True, alpha=0.3)

plt.suptitle('Correlaciones Descriptor-Actividad (An√°lisis QSAR)', 
            fontsize=14, fontweight='bold', y=1.00)
plt.tight_layout()
plt.show()

## 9. Ejercicios Pr√°cticos

### Ejercicio 1: An√°lisis de una Serie de Compuestos

Analiza los siguientes f√°rmacos antihistam√≠nicos:

**Tarea:**
1. Calcula descriptores b√°sicos (MW, LogP, HBD, HBA, TPSA)
2. Eval√∫a la Regla de Lipinski
3. Calcula QED scores
4. Identifica el compuesto m√°s "drug-like"
5. Genera una matriz de similitud usando Morgan fingerprints

In [None]:
# TU C√ìDIGO AQU√ç

antihistaminicos = [
    ('Cetirizina', 'O=C(O)COCCN1CCN(CC1)C(c2ccc(Cl)cc2)c3ccccc3'),
    ('Loratadina', 'CCOC(=O)N1CCC(=C2c3ccc(Cl)cc3CCc4cccnc24)CC1'),
    ('Difenhidramina', 'CN(C)CCOC(c1ccccc1)c2ccccc2'),
    ('Clorfeniramina', 'CN(C)CCC(c1ccc(Cl)cc1)c2ccccn2'),
]

# Tu an√°lisis aqu√≠

### Ejercicio 2: Exploraci√≥n de Descriptores 3D

Compara las formas moleculares usando descriptores 3D.

**Tarea:**
1. Genera conformaciones 3D para: benceno, ciclohexano, adamantano
2. Calcula descriptores de forma (PMI, NPR1, NPR2, Asphericity)
3. Ubica las mol√©culas en el diagrama PMI (Rod-Disc-Sphere)
4. Interpreta qu√© mol√©culas son m√°s esf√©ricas, planas o lineales
5. Calcula el radio de giro de cada una

In [None]:
# TU C√ìDIGO AQU√ç

moleculas_forma = [
    ('Benceno', 'c1ccccc1'),
    ('Ciclohexano', 'C1CCCCC1'),
    ('Adamantano', 'C1C2CC3CC1CC(C2)C3'),
]

# Tu an√°lisis aqu√≠

### Ejercicio 3: Comparaci√≥n de Fingerprints

Compara diferentes tipos de fingerprints.

**Tarea:**
1. Toma 2 mol√©culas similares y 1 diferente
2. Calcula similitud con: Morgan, MACCS, RDKit fingerprints
3. Compara los resultados entre los 3 m√©todos
4. ¬øQu√© m√©todo detecta mejor la similitud estructural?
5. Visualiza las matrices de similitud como heatmaps

In [None]:
# TU C√ìDIGO AQU√ç

moleculas_test = [
    ('Tolueno', 'Cc1ccccc1'),
    ('Xileno', 'Cc1ccccc1C'),
    ('Piridina', 'c1ccncc1'),
]

# Tu an√°lisis aqu√≠

### Ejercicio 4: Predicci√≥n de Propiedades

Usa descriptores para predecir permeabilidad.

**Tarea:**
1. Dataset: 5 mol√©culas con permeabilidad conocida (valores ficticios)
2. Calcula 10 descriptores relevantes
3. Identifica correlaciones con permeabilidad
4. Crea un modelo lineal simple (regresi√≥n)
5. Predice la permeabilidad de una mol√©cula nueva

In [None]:
# TU C√ìDIGO AQU√ç

# Dataset ejemplo
dataset_permeabilidad = {
    'CCCO': 8.5,           # 1-propanol
    'CC(=O)O': 6.2,        # √Åcido ac√©tico  
    'c1ccccc1O': 7.8,      # Fenol
    'CCN(CC)CC': 9.1,      # Trietilamina
    'CC(C)O': 8.0,         # Isopropanol
}

# Mol√©cula nueva para predecir
nueva_molecula = 'CCCCO'  # 1-butanol

# Tu an√°lisis aqu√≠

### Ejercicio 5: An√°lisis Multivariado

Realiza un an√°lisis PCA completo.

**Tarea:**
1. Usa un conjunto de 10 mol√©culas diversas
2. Calcula todos los descriptores 2D disponibles
3. Aplica PCA y reduce a 3 componentes
4. Visualiza en gr√°fico 3D interactivo
5. Identifica qu√© descriptores contribuyen m√°s a PC1 y PC2
6. Agrupa mol√©culas por similitud usando los componentes principales

In [None]:
# TU C√ìDIGO AQU√ç

moleculas_diversas = [
    ('Metano', 'C'),
    ('Etanol', 'CCO'),
    ('Benceno', 'c1ccccc1'),
    ('Aspirina', 'CC(=O)Oc1ccccc1C(=O)O'),
    ('Glucosa', 'C(C1C(C(C(C(O1)O)O)O)O)O'),
    ('Cafe√≠na', 'CN1C=NC2=C1C(=O)N(C(=O)N2C)C'),
    ('Colesterol', 'CC(C)CCCC(C)C1CCC2C1(CCC3C2CC=C4C3(CCC(C4)O)C)C'),
    ('Alanina', 'CC(C(=O)O)N'),
    ('Urea', 'C(=O)(N)N'),
    ('Piridina', 'c1ccncc1'),
]

# Tu an√°lisis aqu√≠

## Resumen y Conclusiones

En esta actividad has aprendido a:

‚úÖ **Calcular descriptores moleculares** 2D y 3D con RDKit  
‚úÖ **Evaluar drug-likeness** usando Regla de Lipinski y QED  
‚úÖ **Generar fingerprints** moleculares para an√°lisis de similitud  
‚úÖ **Analizar propiedades fisicoqu√≠micas** (LogP, TPSA, solubilidad)  
‚úÖ **Aplicar an√°lisis multivariado** (PCA) para reducci√≥n dimensional  
‚úÖ **Realizar an√°lisis QSAR** correlacionando estructura con actividad  
‚úÖ **Visualizar e interpretar** resultados de forma efectiva  

### Puntos Clave

- Los descriptores codifican informaci√≥n estructural en valores num√©ricos
- Descriptores 2D son r√°pidos y no requieren conformaci√≥n 3D
- Descriptores 3D capturan informaci√≥n geom√©trica importante
- Fingerprints permiten comparaciones r√°pidas de similitud
- La Regla de Lipinski predice biodisponibilidad oral
- QED es una m√©trica integrada de drug-likeness
- PCA ayuda a visualizar relaciones en espacios de alta dimensionalidad
- QSAR correlaciona descriptores con actividad biol√≥gica

### Aplicaciones en Drug Discovery

1. **Virtual Screening**: Filtrar grandes bibliotecas por propiedades deseadas
2. **Lead Optimization**: Mejorar propiedades fisicoqu√≠micas
3. **ADMET Prediction**: Predecir absorci√≥n, distribuci√≥n, metabolismo, excreci√≥n, toxicidad
4. **Similarity Search**: Encontrar an√°logos estructurales
5. **QSAR Modeling**: Predecir actividad de nuevos compuestos

### Pr√≥ximos Pasos

- **Actividad 2.7:** B√∫squeda y descarga de estructuras desde bases de datos
- **M√≥dulo 3:** Mec√°nica Molecular y campos de fuerza

---

## Referencias

1. Lipinski, C. A. et al. (1997). *Experimental and computational approaches to estimate solubility and permeability.* Adv. Drug Deliv. Rev., 23, 3-25.

2. Bickerton, G. R. et al. (2012). *Quantifying the chemical beauty of drugs.* Nat. Chem., 4, 90-98.

3. Rogers, D., & Hahn, M. (2010). *Extended-connectivity fingerprints.* J. Chem. Inf. Model., 50(5), 742-754.

4. Todeschini, R., & Consonni, V. (2009). *Molecular Descriptors for Chemoinformatics.* Wiley-VCH.

5. RDKit Documentation: [Descriptor Calculation](https://www.rdkit.org/docs/GettingStartedInPython.html#molecular-descriptors)

6. Sauer, W. H., & Schwarz, M. K. (2003). *Molecular shape diversity of combinatorial libraries.* J. Chem. Inf. Comput. Sci., 43(3), 987-1003.

---

<div align="center">

## üéâ ¬°Felicitaciones!

Has completado la **Actividad 2.6: Descriptores Moleculares y Propiedades Calculadas**

**Siguiente actividad**: B√∫squeda y Descarga de Estructuras (PubChem, PDB)

[![Anterior](https://img.shields.io/badge/‚¨ÖÔ∏è_Actividad_2.5-Conformaciones-blue.svg)](05_conformaciones.ipynb)
[![Siguiente](https://img.shields.io/badge/Actividad_2.7_‚û°Ô∏è-Bases_de_Datos-green.svg)](07_bases_datos.ipynb)

---

üìö **[Volver al M√≥dulo 2](README.md)** | üè† **[Inicio del Curso](../README.md)**

---

**Universidad de Caldas - Departamento de Qu√≠mica**  
*Qu√≠mica Computacional 173G7G*

</div>