# An√°lise e Visualiza√ß√£o de Resultados de Din√¢mica Molecular

Este notebook demonstra como gerar gr√°ficos e an√°lises a partir dos arquivos de sa√≠da do GROMACS para a simula√ß√£o de din√¢mica molecular da lisozima.

## Importa√ß√£o de Bibliotecas

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from scipy import stats
import seaborn as sns

# Configura√ß√µes para melhor visualiza√ß√£o
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12
sns.set_palette("husl")

## Fun√ß√£o para Ler Arquivos .xvg do GROMACS

In [None]:
def read_xvg(filename):
    """
    L√™ arquivos .xvg do GROMACS e retorna os dados como array numpy
    
    Parameters:
    filename (str): Caminho para o arquivo .xvg
    
    Returns:
    numpy.ndarray: Array com os dados do arquivo
    """
    try:
        with open(filename, 'r') as f:
            lines = f.readlines()
        
        # Remove linhas de coment√°rio (come√ßam com # ou @)
        data_lines = [line.strip() for line in lines 
                     if not line.startswith('#') and not line.startswith('@') and line.strip()]
        
        # Converte para numpy array
        data = np.array([line.split() for line in data_lines], dtype=float)
        return data
    
    except FileNotFoundError:
        print(f"Arquivo {filename} n√£o encontrado. Gerando dados simulados para demonstra√ß√£o.")
        return generate_mock_data(filename)

def generate_mock_data(filename):
    """
    Gera dados simulados para demonstra√ß√£o quando os arquivos reais n√£o est√£o dispon√≠veis
    """
    np.random.seed(42)  # Para resultados reproduz√≠veis
    
    if 'rmsd' in filename:
        time = np.linspace(0, 10, 1000)  # 10 ns, 1000 pontos
        rmsd = 0.15 + 0.05 * np.random.random(1000) + 0.02 * np.sin(time * 2)
        return np.column_stack([time, rmsd])
    
    elif 'rmsf' in filename:
        residues = np.arange(1, 130)  # 129 res√≠duos da lisozima
        rmsf = 0.1 + 0.15 * np.random.random(129)
        # Simula loops mais flex√≠veis
        rmsf[10:15] *= 2  # Loop 1
        rmsf[45:50] *= 1.8  # Loop 2
        rmsf[80:85] *= 2.2  # Loop 3
        return np.column_stack([residues, rmsf])
    
    elif 'giracao' in filename or 'gyration' in filename:
        time = np.linspace(0, 10, 1000)
        gyration = 1.45 + 0.02 * np.random.random(1000) + 0.005 * np.sin(time * 3)
        return np.column_stack([time, gyration])
    
    elif 'hbond' in filename:
        time = np.linspace(0, 10, 1000)
        hbonds = 115 + 10 * np.random.random(1000) + 3 * np.sin(time * 4)
        return np.column_stack([time, hbonds])
    
    else:
        # Dados gen√©ricos
        time = np.linspace(0, 10, 1000)
        values = np.random.random(1000)
        return np.column_stack([time, values])

## 1. An√°lise RMSD (Root-Mean-Square Deviation)

O RMSD mede o desvio m√©dio da estrutura em rela√ß√£o √† configura√ß√£o inicial. √â um indicador importante da estabilidade estrutural da prote√≠na.

In [None]:
# Carrega dados RMSD
rmsd_data = read_xvg('rmsd.xvg')
time_rmsd = rmsd_data[:, 0]
rmsd_values = rmsd_data[:, 1]

# Cria o gr√°fico
fig, ax = plt.subplots(figsize=(12, 6))

ax.plot(time_rmsd, rmsd_values, color='#2E8B57', linewidth=1.5, alpha=0.8)
ax.fill_between(time_rmsd, rmsd_values, alpha=0.3, color='#2E8B57')

# Adiciona linha da m√©dia
mean_rmsd = np.mean(rmsd_values)
ax.axhline(y=mean_rmsd, color='red', linestyle='--', linewidth=2, 
           label=f'M√©dia: {mean_rmsd:.3f} nm')

ax.set_xlabel('Tempo (ns)', fontsize=14)
ax.set_ylabel('RMSD (nm)', fontsize=14)
ax.set_title('RMSD do Backbone da Lisozima', fontsize=16, fontweight='bold')
ax.grid(True, alpha=0.3)
ax.legend(fontsize=12)

# Adiciona estat√≠sticas no gr√°fico
textstr = f'Desvio padr√£o: {np.std(rmsd_values):.3f} nm\nValor final: {rmsd_values[-1]:.3f} nm'
props = dict(boxstyle='round', facecolor='wheat', alpha=0.8)
ax.text(0.02, 0.98, textstr, transform=ax.transAxes, fontsize=10,
        verticalalignment='top', bbox=props)

plt.tight_layout()
plt.show()

print(f"An√°lise RMSD:")
print(f"Valor m√©dio: {mean_rmsd:.3f} ¬± {np.std(rmsd_values):.3f} nm")
print(f"Valor m√≠nimo: {np.min(rmsd_values):.3f} nm")
print(f"Valor m√°ximo: {np.max(rmsd_values):.3f} nm")
print(f"Valor final: {rmsd_values[-1]:.3f} nm")

## 2. An√°lise RMSF (Root-Mean-Square Fluctuation)

O RMSF mede a flexibilidade de cada res√≠duo da prote√≠na. Valores altos indicam regi√µes mais m√≥veis (loops), enquanto valores baixos indicam regi√µes mais r√≠gidas (estruturas secund√°rias).

In [None]:
# Carrega dados RMSF
rmsf_data = read_xvg('rmsf.xvg')
residues = rmsf_data[:, 0]
rmsf_values = rmsf_data[:, 1]

# Cria o gr√°fico
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 10))

# Gr√°fico principal
bars = ax1.bar(residues, rmsf_values, width=0.8, color='#4169E1', alpha=0.7, edgecolor='black', linewidth=0.5)

# Destaca res√≠duos com alta flexibilidade (>0.25 nm)
high_flexibility = rmsf_values > 0.25
for i, (res, rmsf, high_flex) in enumerate(zip(residues, rmsf_values, high_flexibility)):
    if high_flex:
        bars[i].set_color('#FF6347')

ax1.axhline(y=np.mean(rmsf_values), color='green', linestyle='--', linewidth=2,
           label=f'M√©dia: {np.mean(rmsf_values):.3f} nm')
ax1.axhline(y=0.25, color='red', linestyle=':', linewidth=2,
           label='Limite alta flexibilidade (0.25 nm)')

ax1.set_xlabel('N√∫mero do Res√≠duo', fontsize=14)
ax1.set_ylabel('RMSF (nm)', fontsize=14)
ax1.set_title('Flutua√ß√£o por Res√≠duo (C-alpha)', fontsize=16, fontweight='bold')
ax1.grid(True, alpha=0.3)
ax1.legend(fontsize=12)

# Histograma de distribui√ß√£o
ax2.hist(rmsf_values, bins=20, color='#4169E1', alpha=0.7, edgecolor='black')
ax2.axvline(x=np.mean(rmsf_values), color='green', linestyle='--', linewidth=2,
           label=f'M√©dia: {np.mean(rmsf_values):.3f} nm')
ax2.set_xlabel('RMSF (nm)', fontsize=14)
ax2.set_ylabel('Frequ√™ncia', fontsize=14)
ax2.set_title('Distribui√ß√£o de Flexibilidade dos Res√≠duos', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3)
ax2.legend(fontsize=12)

plt.tight_layout()
plt.show()

# Identifica res√≠duos mais flex√≠veis
flexible_residues = residues[rmsf_values > 0.25]
print(f"An√°lise RMSF:")
print(f"Flexibilidade m√©dia: {np.mean(rmsf_values):.3f} ¬± {np.std(rmsf_values):.3f} nm")
print(f"Res√≠duos mais flex√≠veis (>0.25 nm): {len(flexible_residues)} de {len(residues)}")
if len(flexible_residues) > 0:
    print(f"Res√≠duos flex√≠veis: {flexible_residues.astype(int)}")

## 3. An√°lise do Raio de Gira√ß√£o

O raio de gira√ß√£o mede a compacta√ß√£o da prote√≠na. Varia√ß√µes significativas podem indicar mudan√ßas conformacionais importantes.

In [None]:
# Carrega dados do raio de gira√ß√£o
gyration_data = read_xvg('giracao.xvg')
time_gyration = gyration_data[:, 0]
gyration_values = gyration_data[:, 1]

# Cria o gr√°fico
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Gr√°fico temporal
ax1.plot(time_gyration, gyration_values, color='#FF8C00', linewidth=1.5)
ax1.fill_between(time_gyration, gyration_values, alpha=0.3, color='#FF8C00')

# Adiciona linha da m√©dia
mean_gyration = np.mean(gyration_values)
ax1.axhline(y=mean_gyration, color='blue', linestyle='--', linewidth=2,
           label=f'M√©dia: {mean_gyration:.3f} nm')

# Banda de varia√ß√£o normal (¬±1 desvio padr√£o)
std_gyration = np.std(gyration_values)
ax1.fill_between(time_gyration, 
                mean_gyration - std_gyration, 
                mean_gyration + std_gyration, 
                alpha=0.2, color='blue', label=f'¬±1œÉ ({std_gyration:.3f} nm)')

ax1.set_xlabel('Tempo (ns)', fontsize=14)
ax1.set_ylabel('Raio de Gira√ß√£o (nm)', fontsize=14)
ax1.set_title('Raio de Gira√ß√£o vs Tempo', fontsize=14, fontweight='bold')
ax1.grid(True, alpha=0.3)
ax1.legend(fontsize=12)

# Histograma de distribui√ß√£o
ax2.hist(gyration_values, bins=30, color='#FF8C00', alpha=0.7, 
         edgecolor='black', density=True)

# Ajusta uma distribui√ß√£o normal
mu, sigma = stats.norm.fit(gyration_values)
x = np.linspace(gyration_values.min(), gyration_values.max(), 100)
ax2.plot(x, stats.norm.pdf(x, mu, sigma), 'r-', linewidth=2, 
         label=f'Ajuste Normal\nŒº={mu:.3f}, œÉ={sigma:.3f}')

ax2.axvline(x=mean_gyration, color='blue', linestyle='--', linewidth=2,
           label=f'M√©dia: {mean_gyration:.3f} nm')

ax2.set_xlabel('Raio de Gira√ß√£o (nm)', fontsize=14)
ax2.set_ylabel('Densidade de Probabilidade', fontsize=14)
ax2.set_title('Distribui√ß√£o do Raio de Gira√ß√£o', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3)
ax2.legend(fontsize=11)

plt.tight_layout()
plt.show()

# An√°lise de estabilidade
variation_percent = (std_gyration / mean_gyration) * 100
print(f"An√°lise do Raio de Gira√ß√£o:")
print(f"Valor m√©dio: {mean_gyration:.3f} ¬± {std_gyration:.3f} nm")
print(f"Varia√ß√£o: {variation_percent:.2f}%")
print(f"Valor m√≠nimo: {np.min(gyration_values):.3f} nm")
print(f"Valor m√°ximo: {np.max(gyration_values):.3f} nm")

if variation_percent < 2:
    print("‚úì Prote√≠na muito est√°vel (varia√ß√£o < 2%)")
elif variation_percent < 5:
    print("‚úì Prote√≠na est√°vel (varia√ß√£o < 5%)")
else:
    print("‚ö† Poss√≠vel instabilidade estrutural (varia√ß√£o > 5%)")

## 4. An√°lise de Liga√ß√µes de Hidrog√™nio

As liga√ß√µes de hidrog√™nio s√£o cruciais para a estabilidade estrutural das prote√≠nas. Mudan√ßas significativas podem indicar desnatura√ß√£o ou mudan√ßas conformacionais.

In [None]:
# Carrega dados de liga√ß√µes de hidrog√™nio
hbond_data = read_xvg('hbond_intra.xvg')
time_hbond = hbond_data[:, 0]
hbond_values = hbond_data[:, 1]

# Cria o gr√°fico
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(12, 10))

# Gr√°fico temporal
ax1.plot(time_hbond, hbond_values, color='#9932CC', linewidth=1.5, alpha=0.8)
ax1.fill_between(time_hbond, hbond_values, alpha=0.3, color='#9932CC')

# Adiciona linha da m√©dia
mean_hbond = np.mean(hbond_values)
ax1.axhline(y=mean_hbond, color='red', linestyle='--', linewidth=2,
           label=f'M√©dia: {mean_hbond:.1f} liga√ß√µes')

# Calcula m√©dia m√≥vel para identificar tend√™ncias
window_size = 50
if len(hbond_values) > window_size:
    moving_avg = np.convolve(hbond_values, np.ones(window_size)/window_size, mode='valid')
    time_ma = time_hbond[window_size-1:]
    ax1.plot(time_ma, moving_avg, color='black', linewidth=2, 
             label=f'M√©dia m√≥vel (janela: {window_size})')

ax1.set_xlabel('Tempo (ns)', fontsize=14)
ax1.set_ylabel('N√∫mero de Liga√ß√µes H', fontsize=14)
ax1.set_title('Liga√ß√µes de Hidrog√™nio Intramoleculares vs Tempo', fontsize=14, fontweight='bold')
ax1.grid(True, alpha=0.3)
ax1.legend(fontsize=12)

# An√°lise de distribui√ß√£o e autocorrela√ß√£o
ax2.hist(hbond_values, bins=25, color='#9932CC', alpha=0.7, 
         edgecolor='black', density=True)

# Ajusta distribui√ß√£o normal
mu_hb, sigma_hb = stats.norm.fit(hbond_values)
x_hb = np.linspace(hbond_values.min(), hbond_values.max(), 100)
ax2.plot(x_hb, stats.norm.pdf(x_hb, mu_hb, sigma_hb), 'r-', linewidth=2,
         label=f'Ajuste Normal\nŒº={mu_hb:.1f}, œÉ={sigma_hb:.1f}')

ax2.axvline(x=mean_hbond, color='red', linestyle='--', linewidth=2,
           label=f'M√©dia: {mean_hbond:.1f}')

ax2.set_xlabel('N√∫mero de Liga√ß√µes H', fontsize=14)
ax2.set_ylabel('Densidade de Probabilidade', fontsize=14)
ax2.set_title('Distribui√ß√£o de Liga√ß√µes de Hidrog√™nio', fontsize=14, fontweight='bold')
ax2.grid(True, alpha=0.3)
ax2.legend(fontsize=12)

plt.tight_layout()
plt.show()

print(f"An√°lise de Liga√ß√µes de Hidrog√™nio:")
print(f"N√∫mero m√©dio: {mean_hbond:.1f} ¬± {np.std(hbond_values):.1f} liga√ß√µes")
print(f"Valor m√≠nimo: {np.min(hbond_values):.0f} liga√ß√µes")
print(f"Valor m√°ximo: {np.max(hbond_values):.0f} liga√ß√µes")
print(f"Coeficiente de varia√ß√£o: {(np.std(hbond_values)/mean_hbond)*100:.1f}%")

## 5. An√°lise Combinada e Correla√ß√µes

An√°lise das correla√ß√µes entre diferentes propriedades estruturais para identificar padr√µes e comportamentos cooperativos.

In [None]:
# Cria um gr√°fico combinado de todas as an√°lises
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('An√°lise Completa de Din√¢mica Molecular - Lisozima', fontsize=18, fontweight='bold')

# 1. RMSD
axes[0,0].plot(time_rmsd, rmsd_values, color='#2E8B57', linewidth=1.5)
axes[0,0].axhline(y=np.mean(rmsd_values), color='red', linestyle='--', alpha=0.8)
axes[0,0].set_xlabel('Tempo (ns)')
axes[0,0].set_ylabel('RMSD (nm)')
axes[0,0].set_title('RMSD do Backbone')
axes[0,0].grid(True, alpha=0.3)

# 2. RMSF
bars = axes[0,1].bar(residues, rmsf_values, width=0.8, color='#4169E1', alpha=0.7)
# Destaca res√≠duos flex√≠veis
for i, rmsf in enumerate(rmsf_values):
    if rmsf > 0.25:
        bars[i].set_color('#FF6347')
axes[0,1].axhline(y=np.mean(rmsf_values), color='green', linestyle='--', alpha=0.8)
axes[0,1].set_xlabel('N√∫mero do Res√≠duo')
axes[0,1].set_ylabel('RMSF (nm)')
axes[0,1].set_title('Flutua√ß√£o por Res√≠duo')
axes[0,1].grid(True, alpha=0.3)

# 3. Raio de Gira√ß√£o
axes[1,0].plot(time_gyration, gyration_values, color='#FF8C00', linewidth=1.5)
axes[1,0].axhline(y=np.mean(gyration_values), color='blue', linestyle='--', alpha=0.8)
axes[1,0].set_xlabel('Tempo (ns)')
axes[1,0].set_ylabel('Raio de Gira√ß√£o (nm)')
axes[1,0].set_title('Raio de Gira√ß√£o')
axes[1,0].grid(True, alpha=0.3)

# 4. Liga√ß√µes de Hidrog√™nio
axes[1,1].plot(time_hbond, hbond_values, color='#9932CC', linewidth=1.5)
axes[1,1].axhline(y=np.mean(hbond_values), color='red', linestyle='--', alpha=0.8)
axes[1,1].set_xlabel('Tempo (ns)')
axes[1,1].set_ylabel('N√∫mero de Liga√ß√µes H')
axes[1,1].set_title('Liga√ß√µes de Hidrog√™nio')
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.savefig('analise_md_completa.png', dpi=300, bbox_inches='tight')
plt.show()

## 6. Matriz de Correla√ß√£o

In [None]:
# Interpola dados para ter o mesmo tamanho temporal
min_length = min(len(time_rmsd), len(time_gyration), len(time_hbond))
indices = np.linspace(0, min_length-1, min_length, dtype=int)

# Cria DataFrame para an√°lise de correla√ß√£o
df_corr = pd.DataFrame({
    'RMSD': rmsd_values[indices],
    'Raio_Giracao': gyration_values[indices],
    'Ligacoes_H': hbond_values[indices]
})

# Calcula matriz de correla√ß√£o
correlation_matrix = df_corr.corr()

# Visualiza matriz de correla√ß√£o
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": .8})
plt.title('Matriz de Correla√ß√£o entre Propriedades Estruturais', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("Matriz de Correla√ß√£o:")
print(correlation_matrix.round(3))

## 7. Resumo Estat√≠stico Final

In [None]:
# Cria um resumo estat√≠stico completo
print("=" * 60)
print("RESUMO ESTAT√çSTICO DA SIMULA√á√ÉO DE DIN√ÇMICA MOLECULAR")
print("=" * 60)

print(f"\nüîπ RMSD (Root-Mean-Square Deviation):")
print(f"   M√©dia: {np.mean(rmsd_values):.3f} ¬± {np.std(rmsd_values):.3f} nm")
print(f"   Intervalo: [{np.min(rmsd_values):.3f} - {np.max(rmsd_values):.3f}] nm")
print(f"   Valor final: {rmsd_values[-1]:.3f} nm")

print(f"\nüîπ RMSF (Root-Mean-Square Fluctuation):")
print(f"   M√©dia: {np.mean(rmsf_values):.3f} ¬± {np.std(rmsf_values):.3f} nm")
print(f"   Res√≠duos flex√≠veis (>0.25 nm): {len(rmsf_values[rmsf_values > 0.25])} de {len(rmsf_values)}")
print(f"   Res√≠duo mais flex√≠vel: {int(residues[np.argmax(rmsf_values)])} (RMSF: {np.max(rmsf_values):.3f} nm)")

print(f"\nüîπ Raio de Gira√ß√£o:")
print(f"   M√©dia: {np.mean(gyration_values):.3f} ¬± {np.std(gyration_values):.3f} nm")
print(f"   Varia√ß√£o: {(np.std(gyration_values)/np.mean(gyration_values))*100:.2f}%")
print(f"   Intervalo: [{np.min(gyration_values):.3f} - {np.max(gyration_values):.3f}] nm")

print(f"\nüîπ Liga√ß√µes de Hidrog√™nio:")
print(f"   M√©dia: {np.mean(hbond_values):.1f} ¬± {np.std(hbond_values):.1f} liga√ß√µes")
print(f"   Intervalo: [{np.min(hbond_values):.0f} - {np.max(hbond_values):.0f}] liga√ß√µes")
print(f"   Coef. de varia√ß√£o: {(np.std(hbond_values)/np.mean(hbond_values))*100:.1f}%")

print(f"\nüîπ Avalia√ß√£o de Estabilidade:")
stability_score = 0

# Crit√©rios de estabilidade
if np.mean(rmsd_values) < 0.3:
    print(f"   ‚úì RMSD baixo (<0.3 nm)")
    stability_score += 1
else:
    print(f"   ‚ö† RMSD elevado (>0.3 nm)")

if (np.std(gyration_values)/np.mean(gyration_values))*100 < 5:
    print(f"   ‚úì Raio de gira√ß√£o est√°vel (varia√ß√£o <5%)")
    stability_score += 1
else:
    print(f"   ‚ö† Raio de gira√ß√£o inst√°vel (varia√ß√£o >5%)")

if (np.std(hbond_values)/np.mean(hbond_values))*100 < 15:
    print(f"   ‚úì Liga√ß√µes H est√°veis (varia√ß√£o <15%)")
    stability_score += 1
else:
    print(f"   ‚ö† Liga√ß√µes H inst√°veis (varia√ß√£o >15%)")

print(f"\nüéØ Score de Estabilidade: {stability_score}/3")
if stability_score == 3:
    print("   Prote√≠na muito est√°vel durante a simula√ß√£o")
elif stability_score == 2:
    print("   Prote√≠na moderadamente est√°vel")
else:
    print("   Poss√≠vel instabilidade estrutural")

print("=" * 60)